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VORWORT 


Das hier vorgelegte Verfahren zur maschinellen morphologischen 
Segmentierung russischer Worter, SPLIT, wurde im Rahmen des For- 
schungsprojektes “Analyse der Wortstruktur und Wortschatzstruktur 
der russischen chemischen Fachsprache unter Einsatz elektronischer 
Datenverarbeitungsanlagen" entwickelt. Das Projekt wird an der 
Freien Universitat Berlin mit finanzieller Unterstützung durch 
die Deutsche Forschungsgemeinschaft durchgeführt. 


Den Mitarbeitern móchte ich an dieser Stelle meinen Dank aus- 
sprechen. Thomas Kühn war wesentlich an der Übertragung des Seg- 
mentierungsalgorithmus in ein Assemblerprogramm und beim Austesten 
des Verfahrens in der Rechenanlage beteiligt. Mühevolle Kleinarbeit 
bei der Erstellung der für das Verfahren erforderlichen Listen von 
Wortbauelementen und ihren Kombinationen leisteten Peter Blecher, 
Rosalinde Sartorti, Nina Kuznecova und Joseph Sonderkamp. Das Ab- 


lochen der umfangreichen Datenmengen besorgte mit Geduld Mechthild 
Iven. 


Mein besonderer Dank gilt Prof. Dr. Norbert Reiter, der Raum 
und organisatorische Potenz des Instituts für Balkanologie zur 
Verfügung stellte und damit das Projekt überhaupt erst ermoglichte. 


Friedrich Wenzel 
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l. FORSCHUNGSRAHMEN 


Das Anliegen der Arbeit ist, ein Verfahren zur 
maschinellen morphologischen Analyse russischer Wörter 
- d.h. zur Segmentierung russischer Wörter mittels ei- 
ner Rechenanlage in eine formatierte Kette von Morphen 
- in seiner Funktionsweise und Leistungsfähigkeit zu 
beschreiben. 


Die Entwicklung dieses Verfahrens steht im Kon- 
text der Forschungen zur automatischen Erschließung der 
Inhalte fremdsprachlicher Fachtexte - im speziellen rus- 
sischer chemischer Fachtexte - und zur maschinellen Do- 
kumentation. Das Verfahren ist in diesem Zusammenhange 
zu verstehen als erster Teil eines Analyse-Synthese- 
Systems, mit dem nach der Segmentierung von Wörtern in 
geeignet dimensionierte Wortbauelemente die Syntheti- 
sierung eines für Dokumentationszwecke hinreichenden 
Wortinhalt-Kodes durchgeführt werden kann.! Ein solches 
Programmsystem soll im wesentlichen die Aufgabe über- 
nehmen, das für die Verarbeitung fremdsprachlicher Tex- 
te erforderliche, bislang sehr speicheraufwendige Wör- 
terbuch zu ökonomisieren, indem der Wortschatz so weit 
wie praktikabel auf den Bestand der ihn konstituierenden 
Wortbauelemente reduziert wird. Die dadurch für das Rus- 
sische im idealen Falle etwa 97 Prozent? betragende Ein- 


Innerhalb eines voll ausgebauten Systems kommuniziert 
das hier angedeutete Analyse-Synthese-System mit einem Parser, 
wodurch die Dimension des Wortes verlassen wird und fiir die Syn- 
these semantischer Kodes auch komplexere Einheiten herangezogen 
werden kónnen. 


2 Bei überschl3giger Rechnung ist für die Reduktion der 
Zahl der Wórterbucheinheiten auf die Zahl der Wortbauelemente 
ein Quotient zwischen 8 und 10 und noch einmal für die Reduktion 
der Anzahl der Zeichen pro Einheit ein Quotient zwischen 3 und 
4 anzusetzen. 
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sparung an Speicherplatz würde über die bloße Verrin- 
gerung des Speicherumfangs hinaus einen Zugriff auf 
externe Speichermedien mit ihrer um mehrere Zehnerpo- 
tenzen höher liegenden Zugriffszeit wenn nicht erüb- 
rigen so doch wesentlich verringern. Für das maschinel- 
le information retrieval erweist sich auch ohne Rück- 
Sicht auf speicherókonomische Erwágungen die Segmentie- 
rung von Wörtern als unumgänglich, wenn man zu möglichst 
vollständigen Antworten des Retrievalsystems auf Benut- 
zeranfragen kommen will. 


Die maschinelle Segmentierung russischer Wörter 
wurde zuerst im Rahmen einer Reihe von MT-Projekten in 
Angriff genommen. Damit wurde zum einen der Zweck ver- 
folgt, die für den Parser notwendigen morphologischen 
Informationen zur Verfügung zu stellen - was zur Abtren- 
nung der Flexionssuffixe führte - und zum anderen der 
Zweck, das übliche "dictionary look-up" zu beschleuni- 
gen - was bereits schon durch die Abtrennung der Fle- 
xionssuffixe erreicht werden konnte, aber darüber hin- 
aus eine weitergehende Segmentierung erforderlich mach- 
te. WAHLGREN fordert zwar schon 1962 "segmentation down 
to the minimal"?, doch blieb in den MT-Projekten die 
vollständige Segmentierung auf den Bereich chemischer 
Stoffnahmen rationaler und halbrationaler Nomenklatur 


- wo die Durchführbarkeit evident ist - beschränkt." 


3 Wahlgren, J.H., Linguistic Analysis of Russian Chemi- 
. cal Terminology, in: International Conference on Machine Trans- 
lation of Language and Applied Language Analysis, London 1962, 
S. 259-263. 


4 Wahlgren, J.H., A descriptive grammar of Russian che- 
mical nomenclature, projekt document DR3 (Machine Translation 
Projekt, University of California), Berkeley 1964. 
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Im übrigen begnügte man sich mit der Segmentierung in 
Teilketten, die zumeist mehr nach pragmatischen als nach 
sprachwissenschaftlichen Gesichtspunkten dimensioniert 
sind. Als Beispiel für eine partielle Segmentierung soll 
das an dem National Physical Laboratory (England) ent- 
wickelte Verfahren erwähnt werden, das auf das Analyse- 
verfahren von DAVIES und DAY? aufgebaut: Zu übersetzen- 
de Wörter werden in Stamm und Suffix bzw. längste Suf- 
fixkette segmentiert, letztere werden nach einer Tabel- 
le kodiert. Das Maschinenwörterbuch enthält jeweils für 
eine Gruppe von Derivaten nur noch einen Eintrag für den 
Stamm und eine Liste der Kodes für die Suffixe bzw. Suf- 
fixketten der Derivate. Eine im Wörterbuch nicht enthal- 
tene Stamm-Suffixkombination kann nicht bearbeitet wer- 


den. $^ 7 


Die vollständige Segmentierung einer beachtlichen 


Wortschatzmenge in kleinstmögliche Elemente leistete inzwi- 
schen ein RAND-Projekt unter der Leitung von vor Das 
Ergebnis der Arbeit ist ein Derivationsworterbuch der 


russischen Gegenwartssprache. Entsprechend der Zielset- 


5 Davies, Donald W. und Day, Antony M., A Technique for 
Consistent Splitting of Russian Words, in: International Confe- 
rence on Machine Translation and Applied Language Analysis, 
London 1962, S. 343-363. 


6 McDaniel, J. et alii, An evaluation of the usefulness 
of machine translations produced at the National Physical Labora- 
tory, Teddington, with a summary of the translation methods, in: 
2ëme Conference internationale sur le traitement automatique des 
langues, Grenoble 1967. 


7 Zu weiteren Analyseverfahren, auch solchen, die andere 
Sprachen betreffen, siehe Literaturverzeichnis. 


8 Worth, Dean S., Kozak, Andrew S., Johnson, Donald B., 
Russian Derivational Dictionary, New York 1970. 
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zung intendiert das zur Segmentierung eingesetzte ma- 
Schinelle Verfahren keine Automation, sondern nimmt ei- 
ne Reihe von zwischengeschalteten manuellen Arbeitsgän- 
gen und ein umfangreiches Postedit zur Korrektur von 
Segmentierungsfehlern in Kauf. Dennoch war die Arbeit 
der Gruppe um WORTH für das hier vorzustellende Segmen- 
tierungsverfahren von Bedeutung, da auf der Grundlage 
der von der Gruppe vorgelegten Segmentierungsergebnisse 
Elementkombinationslisten erstellt werden konnten, ohne 
die eine weitgehend fehlerfreie maschinelle Segmentie- 
rung nicht möglich ist. 
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2. ZWECK DER DOKUMENTATION DES VERFAHRENS 


Der eingangs skizzierte Forschungskontext ist nur 
einer der móglichen Anwendungsbereiche für das Segmentie- 
rungsverfahren. Der Aufbau eines für diese Zwecke voll 
funktionsfähigen Analyse-Synthese-Systems setzt im übri- 
gen noch weitere Forschung, speziell im linguistischen 
Bereich, voraus. Nicht zuletzt hier, insbesondere für 
das Gebiet der Wortbildung, vermeinen wir, mit dem vor- 
liegenden Segmentierungsverfahren einen Beitrag liefern 
zu können. 


Das Verfahren soll dem Sprachwissenschaftler als 
ein Hilfsmittel dienen, einen Wortschatz beliebig großen 
Umfangs, bzw. einen nach bestimmten Kriterien ausgewähl- 
ten Wortschatz, z.B. einen Fachwortschatz, so aufzuberei- 
ten, daß er die Lösung seiner Fragen auf breiter Materi- 
algrundlage rationell angehen kann. Die Anwendung eines 
maschinellen Verfahrens zwingt ihn dazu, seine Fragestel- 
lungen und die in Untersuchung eingebrachten Kriterien 
explizit zu machen; zugleich garantiert sie ihm die voll- 
ständige Auswertung des eingesetzten Materials und die 
völlig gleichmäßige Behandlung aller untersuchten Einhei- 
ten. 


Liegen erst einmal die maschinell erstellten Seg- 
mentierungsergebnisse vor - und es versteht sich von 
selbst, daß diese wieder in maschinenlesbarer Form an- 
fallen - so können sie mit den bei den meisten Rechen- 
anlagen zur System-Software gehörenden Sort-Merge-Pro- 
grammen ohne großen Programmieraufwand nach einem frei 
definierbaren Alphabet und nach einer Kette beliebig 
verknüpfbarer Sortierschlüssel sortiert werden. 


Die Ergebnisse der Sortierung kónnen dann zur 
weiteren "manuellen" Bearbeitung in Listenform ausge- 
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druckt werden. So bietet sich z.B. das Ausdrucken eines 
Derivationsworterbuches an, in dem sich der derivatio- 
nale Zusammenhang eines Wortes innerhalb der Wortfami- 
lie, der es zugeordnet ist, untersuchen 188t.? In der 
Auflistung einer Sortierung nach Suffixketten (1. Sor- 
tierschlüsse1)!? oder in einer entsprechenden Sortierung 
a tergo lassen sich die Ableitungsstufen ausfindig ma- 
chen, die bei der Untersuchung des derivationalen Gefü- 
ges einzelner Wortfamilien als Lücken auftreten. Beide 
Sortierungen zusammen liefern ein geeignetes Material, 
um etwa das Problem der sog. abgeleiteten Derivations- 
suffixe zu bearbeiten. 


Ein weites Feld von Untersuchungsmöglichkeiten 
ist dadurch gegeben, daB die Segmentierungsergebnisse 
- in vorsortierter Form auf Magnetband oder Magnetplat- 
te gespeichert - mit der Rechenanlage selbst ausgewer- 
tet werden kónnen. DaB damit die Moglichkeit exakter 
statistischer Analysen gegeben ist, versteht sich von 
selbst.“! Zu nennen ist vor allem der Bereich der dis- 
tributionellen Untersuchungen, etwa unter den Frage- 
stellungen: Welche Kombinationen von Elementen treten 
in einem Wortschatz auf und mit welcher Häufigkeit? 

In welchem Umfeld treten bestimmte Kombinationen auf? 
Da die morphologische Segmentierung als eine Struktur- 


3 Siehe dazu den Ausschnitt eines Derivationswórterbuches 
der russischen chemischen Fachsprache, das Uber das Segmentierungs- 
verfahren hergestellt wurde, im Anhang. 


9 Siehe den Ausschnitt einer solchen Sortierung des russi- 
schen chemischen Fachwortschatzes im Anhang. 


a So konnte z.B. für den von uns untersuchten, 10.000 Ein- 
heiten umfassenden russischen chemischen Fachwortschatz innerhalb 
einer Minute der Anteil an mehrkernigen Wórtern festgestellt wer- 
den: 26,0 % 2-kernige, 1,7 % 3-kernige, 0,1 2 4-kernige, = 27,8 € 
mehrkernige Wörter - im Vergleich dazu enthält der umgangs- und 
literatursprachliche Wortschatz nur 3 % mehrkernige Wörter. 
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analyse von Wortern interpretiert werden kann, bietet 
die maschinelle Weiterverarbeitung der Segmentierungs- 
ergebnisse auch die Móglichkeit zur Erstellung eines 
Strukturprofils fiir spezielle Wortschatzsektoren, etwa 
fiir einen Fachwortschatz. 
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3. EINGRENZUNG DER DARLEGUNG 


Das Segmentierungsverfahren arbeitet als ein auf 
einem allgemeinen formalen Wortstrukturschema basieren- 
der und damit von einer Einzelsprache weitgehend unab- 
hängiger Algorithmus !? über eine Reihe von speziellen, 
die Gegebenheiten der Einzelsprache - in diesem Falle 
der russischen - erfassenden Elementlisten. 


Der Algorithmus ist programmiert in der Assem- 
blersprache COMPASS für die Rechenanlage CDC 3300 und 
setzt die Installation des Betriebssystems MASTER und 
hardwareseitig die Installation eines Zeichenverarbei- 
tungs-(BDP-)Moduls voraus. Das Programm ist im Hinblick 
auf seine spätere Anwendung in der automatischen Sprach- 
verarbeitung unter Ausnutzung aller in der Hardware ge- 
gebenen Möglichkeiten zur Erreichung hoher Rechenge- 
schwindigkeiten optimiert. 


Eine eingehende Darlegung des Programms würde 
beim Leser nicht nur die Kenntnis der hier verwendeten 
Assemblersprache, sondern auch die interne Kenntnis 
der Rechenanlage CDC 3300 voraussetzen. Da man anderer- 
seits davon ausgehen kann, daß ein Benutzer des Segmen- 
tierungsverfahrens in den meisten Fällen den Algorith- 
mus nach den Gegebenheiten der ihm verfügbaren Rechen- 


12 Der Algorithmus basiert zwar auf der für den russischen 
Wortschatz abgeleiteten formalen Wortstruktur, jedoch trifft die- 
se zumindest auch auf weitere slawische Sprachen zu. Zur Prüfung 
der Anwendbarkeit auf andere Sprachen siehe die Strukturformeln 
I, Il und IV in Kap. 4.5.2 
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anlage in ein Programm anderer Sprache umsetzen muß, 

wird die Beschreibung des Programms auf die der Programm- 
struktur beschränkt. Das in COMPASS geschriebene Assem- 
blerprogramm wird im Anhang dokumentiert. Für das Stu- 
dium dieses Programmes und insbesondere für die Erleich- 
terung einer erneuten Programmierung wird ein ausführ- 
liches Flußdiagramm ebenfalls im Anhang aufgenommen. !? 


Die Morph- und Morphkombinationslisten, auf die 
der Algorithmus zugreift, werden nur in Bezug auf die 
vom Algorithmus geforderte Listenstruktur beschrieben. 
Der Listenapparat, mit dem das Verfahren an einem grö- 
Beren Wortschatz ausgetestet wurde, wird ebenfalls in 
den Anhang aufgenommen. 


Gegenstand der Darlegung sollen die Grundzüge 
des Segmentierungsalgorithmus sein, nachdem zuvor die 
ihm zugrunde gelegten linguistischen Begriffe definiert 
sind. 


13 Im übrigen verweisen wir auf die im Literaturverzeich- 
nis aufgeführten Manuals zu dem Computer-System, dem Betriebs- 
system und dem Assembler der CDC 3300. 
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4. THEORETISCHER STATUS DER DEM VERFAHREN ZUGRUNDE 
GELEGTEN LINGUISTISCHEN BEGRIFFE 


Eingabeeinheit ist das Wort in seinem graphischen 
Ausdruck, Ausgabeeinheit ist das Morph in Form einer for- 
matierten Kette von Morphen. Beide Begriffe, Wort und 
Morph, bedürfen der Explikation in ihrem durch den Mor- 
phembegriff gegebenen theoretischen Zusammenhange. 


Das Verfahren ist darauf eingerichtet, Wortkern- 
allomorphe ineinander zu überführen ( - die Wortkernli- 
ste, auf die der Algorithmus zugreift, enthält jeweils 
nur eines der möglichen Allomorphe). Das Verfahren ist 
ebenfalls dazu in der Lage, Homomorphe, sofern sie Ele- 
mente verschiedener Morphklassen sind, zu diskriminie- 
ren; unter der Voraussetzung, daB die Listenstruktur ge- 
ándert wird, ist es móglich, auch Homomorphe, die Ele- 
mente ein und derselben Morphklasse sind, zu diskriminie- 
ren. Die Begriffe Allomorphie und Homomorphie müssen al- 
so ebenfalls in ihrem theoretischen Zusammenhange defi- 
niert werden. 


Grundsätzliches Problem der formalen Segmentie- 
rung von Wörtern mit einem maschinellen Verfahren ist 
das der Heteromorphie, ein Begriff der neu eingeführt 
wird und deshalb der Explikation bedarf. 


Von grundlegender Bedeutung für den Segmentie- 
rungsalgorithmus ist der Begriff der Morphem- und da- 
mit der Morphklassendistribution, durch den eine for- 
male Strukturbeschreibung von Wörtern geleistet wird 
und der auf der Grundlage einer mathematischen Defini- 
tion der Morphemklassen abgeleitet werden soll. 
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4.1 Morphem 


Wir definieren das Morphem zunächst als die ab- 
strakte Einheit: kleinstes Element der Zuordnung von 
sprachlichem Ausdruck und sprachlichem Inhalt. Abgese- 
hen davon, daB Wortgrenzen auch immer zugleich Morphem- 
grenzen sind, liefert uns lediglich diese Korrelation 
von Ausdruck und Inhalt die Kriterien für die Dimensio- 
nierung eines Morphems. Mir gewinnen Morpheme, indem 
wir Wórter, denen ein gemeinsames Inhaltselement zu- 
kommt, auf ein gemeinsames Ausdruckselement hin unter- 
suchen, bzw. indem wir Wórter, die aufgrund ihres Zei- 
chenbestandes ein gemeinsames Morphem vermuten lassen, 
auf ein gemeinsames Inhaltselement hin überprüfen. 


Eine solche Analyse, in der wir einen Wortschatz 
durch fortlaufendes Umgruppieren von Wörtern nach dem 
Kriterium der Ausdrucks-Inhalts-Korrelation allmählich 
in seinen Elementbestand segmentieren, liefert uns zu- 
gleich die Distribution der Morpheme. Dadurch kommen 
wir zu einer zusätzlichen Definition des Morphems, die 
sich jetzt nur noch auf die Ausdrucksebene allein be- 
zieht: Ein Morphem ist dasjenige kleinste Element, das 
in der Ebene des sprachlichen Ausdrucks einer - noch zu 
explizierenden - definierten Distribution unterliegt. 


Die auf die Ausdrucksebene des Morphems zutref- 
fende Distribution besteht nicht wie bei der Distribu- 
tion kleinster graphischer (bzw. auch phonologischer) 
Einheiten allein darin, daB sie durch eine enumerier- 
bare Liste von vorausgehenden bzw. Folgeelementen be- 
Schreibbar ist, sondern darin - und das ist das für 
das Morphem Spezifische seiner Distribution -, daß 
sich Morpheme als Element von Klassen definieren las- 
sen, für die eine die allgemeine formale Struktur von 
Wórtern einer Sprache beschreibende Distribrution ab- 
leitbar ist. (Siehe dazu Kap. 4.5). 
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4.2 Morph, Allomorph, Homomorph 


Die Konkretisierung eines Morphems im sprachli- 
chen Ausdruck, d.h. die jeweilige Zeichengruppe (Anzahl 
der Zeichen 2 1), durch die ein Morphem innerhalb der 
Zeichenkette eines sprachlichen Ausdrucks repräsentiert 
wird, nennen wir Morph. Durch die begriffliche und ter- 
minologische Unterscheidung zwischen Morphem und Morph 
vermögen wir dem Sachverhalt Rechnung zu tragen, daß 
ein und dasselbe Morphem im sprachlichen Ausdruck durch 
verschiedene Zeichengruppen repräsentiert sein kann und 
umgekehrt, daß verschiedene Morpheme im sprachlichen 
Ausdruck durch ein und dieselbe Zeichengruppe repräsen- 
tiert sein können. 


Die verschiedenen Konkretisierungsformen ein und 
desselben Morphems nennen wir Allomorphe. Für die Defi- 
nition von Allomorphen reicht allein nicht zu, daß ver- 
schiedene Morphe einem gleichen Inhalt zugeordnet sind, 
denn das wäre auch bei lexikalischen Synonymen, wie 
losad' ("Pferd") und kon’ (ebenfalls "Pferd") der Fall. 
Verschiedene, einem gleichen Inhalt zugeordnete Morphe 
sind erst dann als Allomorphe definiert, wenn sie durch 
einen auf mehr als einen Fall?’ von Allomorphie anwend- 
baren Satz von Regeln ineinander überführbar sind. (Sie- 
he dazu Kap. 5.2.4) 


Ihrem Zeichenbestand nach gleiche Morphe, durch 
die jedoch verschiedene Morpheme repräsentiert werden, 
nennen wir Homomorphe. Setzen wir die Distribution von 


14 In der Regel ist eine Uberführungsregel auf eine große 
Anzahl von Allomorphen anwendbar. 
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Morphemen und damit die Distribution der sie repräsen- 
tierenden Morphe als bekannt voraus, so sind Homomorphe 
bis auf Ausnahmefälle auch allein in der Ebene des sprach- 
lichen Ausdrucks diskriminierbar und dadurch als Homomor- 
phe definiert. Und zwar zum Teil aufgrund der Morphemklas- 
sendistribution - dadurch wäre z.B. das Morph raz in ei- 
nem Falle, so in dem Wort razrusit', als das Präfix raz, 
im anderen Falle, so in dem Wort vyrazit', als der Wort- 
kern raz definiert. Der andere Teil der Homomorphe und 
zwar die, die Morpheme ein und derselben Morphemklasse 
reprasentieren, sind diskriminierbar und definiert durch 
die Distribution 2. und 3. Ordnung (siehe Kap. 4.5.2). 
Dadurch ware z.B. das Morph vod in einem Falle, so in 

den Wörtern provod, vodit’, nesvodimyj, protzvodetvennyj, 
vyvodjasctj ... als das Homomorph vod, ausweisbar, indem 
ihm nämlich jeweils eines der Elemente der dem Morph 

vod, zugeordneten Liste {%, f, im, stv, jase, ...) folgt; 
im anderen Falle, so in den Wörtern voda, vodica, vod- 
janoj, bezvod'e ... ist das Morph vod als das Homomorph 
voda definiert, da ihm jeweils ein Element der dem Morph 
voda zugeordneten Liste (a, ic, jan, ', ...) folgt. In 
einem Teil der Fälle müssen zur Diskriminierung von Ho- 
momorphen zusätzlich die Listen der ihnen vorausgehenden 
Morphe herangezogen werden. 
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4.3 Heteromorphie 


Die Heteromorphie ist ein formales Problem der 
maschinellen Segmentierung, das sich durch die Abstrak- 
tion vom Wortinhalt stellt. Mit Heteromorphie bezeich- 
nen wir den Fall, daB eine Zeichenkette in verschiedene 
Morphketten segmentierbar ist. Eine solche Zeichenkette 
nennen wir einen heteromorphen Homographen. Ein hetero- 
morpher Homograph ware z.B.: 


"zu Hause 


dom-o-del'-n-yj hergestellt" 


domodel 'nyj 


~ do-model '-n-yj ("Vormodell-", 
lexikalisch 
nicht reali- 
siert) 


Lexikalisch realisierte Fälle sind relativ selten. 
Bei der formalen Segmentierung stellen sich Wörter jedoch 
sehr häufig als heteromorphe Homographen dar, so daß sich 
die Heteromorphie für die Erstellung eines Segmentierungs- 
algorithmus als eines der schwerwiegendsten Probleme er- 
weist. (Siehe dazu Kap. 5.1.4) 
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4.4 Wort 


Wir definieren Wort als diejenige sprachliche 
Einheit, die in ihrem graphischen Ausdruck delimitiert 
ist als eine Zeichenkette zwischen einem Leerzeichen 
und dem náchsten Leerzeichen oder Satzzeichen. Das Wort 
repräsentiert eine Kette von Morphemen (Anzahl der Mor- 
pheme 21) und damit ebenfalls eine Einheit der Zuord- 
nung von Ausdruck und Inhalt. Einer Beschreibung des 
theoretischen Status des Wortes fällt die Aufgabe zu, 
darzulegen, inwiefern die von uns nach graphischen, al- 
so nach äußerlichen Kriterien als Wort definierte Mor- 
phemkette innerhalb der Morphemkette des Satzes eine 
besondere sprachliche Einheit darstellt. Wir können 
diese Aufgabe lösen, indem wir dem Auftreten von Wort- 
grenzen und damit der Einheit Wort die Distribution 
von Morphemen zugrunde legen: 


Eine Wortgrenze liegt jeweils zwischen den 
beiden Morphemen einer Kette von Morphemen, von 
denen sowohl das folgende für das vorausgehende 
wie auch das vorausgehende für das folgende Mor- 
phem ein Element einer nahezu unbegrenzten Liste 
von austauschbaren Morphemen ist. 


Innerhalb einer durch Wortgrenzen delimitier- 
ten Morphemkette gilt für jedes Tupel aufeinander 
folgender Morpheme, daß das folgende für das vor- 
ausgehende und/oder das vorausgehende für das fol- 
gende Morphem ein Element einer begrenzten Liste 
von austauschbaren Morphemen ist. 


Damit ist das Wort innerhalb der Morphemkette 
des Satzes als Element einer besonderen Distributions- 
klasse definiert. Es handelt sich hier um die allge- 
meinste Definition, die auf der Grundlage der Distri- 


bution von Morphemen möglich ist; sie ist unexakt, in- 
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sofern die Begriffe "nahezu unbegrenzte Liste" und 
"begrenzte Liste" nicht definiert sind. Mir kónnen 
lediglich aufgrund empirischer Befunde diese Begrif- 
fe durch die Angabe von Grenzwerten in ungefähr be- 
Schreiben: Anzahl der Elemente einer "begrenzten Li- 
ste" « 500 (in der Regel « 100), Anzahl der Elemente 
einer "nahezu unbegrenzten Liste" » 5.000 (auf der 
Basis von Sätzen, in die ein Wortschatz von größen- 
ordnungsmäßig 50.000 Einheiten eingeht). 


Die nachfolgende Analyse der Morphemklassen- 
distribution liefert zugleich die Basis für eine ex- 
aktere Definition des Wortes, nämlich als einer Ein- 
heit definierter morphologischer Struktur. 
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4.5 Distributive Morphemklassen und Wortstruktur 


Die am Schluß dieses Kapitels unter IV aufgeführ- 
te formale morphologische Struktur russischer Wörter wur- 
de als Strukturhypothese bereits dem Segmentierungsalgo- 
rithmus zugrunde gelegt und experimentell verifiziert, 
bevor dieses Kapitel verfaßt wurde. Es handelt sich also 
im Folgenden um eine nachträgliche Explikation dieser 
Struktur. Die Explikation setzt an der Stelle ein, an der 
bereits ein repräsentatives Korpus segmentierter Wörter 
vorliegt. 


Die Slavistik blickt auf eine lange Tradition im 
Segmentieren von Wörtern zurück. Bei der Segmentierung 
wird ein umfangreiches und durchaus heterogenes lingui- 
stisches Wissen mehr oder minder intuitiv angewendet. Es 
lassen sich einige allgemeine Prinzipien für Segmentie- 
rungsprozeduren aufstellen, wie etwa das Prinzip der 
restlosen Zerlegbarkeit (die Segmentierung muß "aufge- 
hen", d.h. sie darf keine Segmente ohne Morphemstatus als 
Rest übrig lassen) oder das Prinzip der Austauschbarkeit 
(eine Morphemgrenze kann nur dort gesetzt werden, wo das 
vorausgehende für das folgende und das folgende für das 
vorausgehende Segment ein Element einer Liste austausch- 
barer Morpheme ist), etc. Eine schlüssige, auf die seman- 
tische Struktur des Wortes Bezug nehmende Segmentierungs- 
theorie gibt es jedoch bis heute nicht. Wir begnügen uns 
deshalb für das Weitere damit, von Segmentierungen auszu- 
gehen, wie sie in der Slavistik allgemein als richtig ak- 
zeptiert werden. 


Die primäre Segmentierung eines Wortschatzes "von 
Hand", die überhaupt erst zur Konstituierung von Morphe- 
men führt, kann - sieht man einmal von den Versuchen 
HARRIS' und seiner Schule ab - selbstverständlich nicht 
durchgeführt werden, ohne daß den Elementen Inhalte bzw. 
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Funktionen zugeordnet werden. Liegt aber erst einmal ein 
segmentierter Wortschatz vor, und davon gehen wir aus, 

so lassen sich Morpheme auf rein distributionellem Wege 
zu Klassen zusammenfassen, ohne daß inhaltliche oder 
funktionale Kategorien in die Definition der Klassen ein- 
bezogen werden. Der in dieser Arbeit vorgelegte Segmen- 
tierungsalgorithmus bezieht sich ausschlieBlich auf die 
Ebene der Distribution der Morpheme. 


Mit den Mitteln der Mengentheorie werden zunächst 
Morphemklassen operational definiert: anschlieBend wird 
deren Distribution expliziert und damit zugleich eine Be- 
schreibung der allgemeinen morphologischen Struktur rus- 
sischer Wórter geleistet. 
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4.5.1 Mengentheoretische Definition der Morphemklassen 


Die Morphemklassen werden definiert auf der Basis 
vorgegebener, aber noch nicht interpretierter Wortstruk- 
turen (segmentierter Wortschatz)'?; diese werden aufge- 
faßt als Konkretisierungen einer allgemein definierbaren 
Distribution von Morphemklassen. 


Die zwei wesentlichen, im Folgenden aufgeführten, 
Operationen sind 1. das Setzen einer Schnittstelle, durch 
die die Morphemkette eines Wortes W in die Teilketten W, 
und Να zerlegt wird. Die Operation wird durch den Ausdruck 
W = (Wı,W2) formalisiert. Bei einer algorithmischen Anwen- 
dung dieser Operation vollzieht sich das Setzen der Schnitt- 
stelle dynamisch. D.h. die Schnittstelle wird von Morphem- 
grenze zu Morphemgrenze vorgesetzt, bis alle Möglichkei- 
ten der Zerlegung in zwei Teilketten erschöpft sind. 


Die 2. wesentliche Operation ist das Abtrennen von 
Morphemen aus Morphemketten und das Zusammenfassen dieser 
Morpheme zu einer definierten Menge. Dem liegt zugrunde, 
daß in einer endlichen Kette von Elementen zwei Elemente 
eine Sonderstellung einnehmen und zwar das erste (vorde- 
re) und das letzte (hintere). Elemente von Morphemketten, 
die diese Eigenschaften haben, werden mit m, (= vorderes 
Morphem) bzw. m, (= hinteres Morphem) notiert. 


Mittels dieser Operationen und weiterer, geläufi- 
ger mengentheoretischer Prozeduren, wie das Abziehen von 
Mengen und das Bilden von Durchschnittsmengen, werden 


15 Um die Problematik von Homomorphen, die Morpheme verschie- 
dener Morphemklassen repräsentieren, und von phonologisch und damit 
positionsbedingten Allomorphen auszuschließen, ist es geraten, die 
Analyse auf die Einheit Morphem zu beziehen, weswegen hier ausschl ieB- 
lich von Morphemklassen gesprochen wird. Das maschinelle Segmentie- 
rungsverfahren arbeitet indessen mit Listen von Morphen; diese Listen 
repräsentieren jeweils eine Morphemklasse. 
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Elemente bestimmter distributioneller Eigenschaften zu 
Mengen zusammengefaßt und als Klassen definiert. Der Fol- 
ge von Operationen liegt eine Hypothese über die Distri- 
bution der Morphemklassen zugrunde. Danach haben wir es 
mit 5 distributionellen Klassen zu tun: P [Präfixe], 

K [Kernmorpheme], DS [Derivationssuffixe], IS [Inklina- 
tions-, Flexionssuffixe], C [Konnektoren]!®, Gemäß der 
Hypothese wird etwa von den Elementen der Morphemklasse 
P vorausgesetzt, daß sie vor oder hinter anderen Elemen- 
ten derselben Klasse und in Bezug auf andere Klassen nur 
vor Elementen der Klasse K, nicht aber vor Elementen an- 
derer Klassen auftreten können, usw. Siehe im einzelnen 
Abschnitt 4.5.2 und die Kommentare zu den Prozeduren. 


Weitere Notationskonventionen und vorbereitende 
Definitionen: 


Kleinbuchstaben bezeichnen die Elemente der durch 
die entsprechenden Großbuchstaben bezeichneten Men- 
gen bzw. Klassen. 

W = Menge aller Wörter der russischen Gegenwarts- 


sprache, die aus einer Kette von Morphemen 
bestehen (Anzahl der Morpheme 2 2). 


m =  Morphem 

We X 

W = {Mis Ma, ... Mn} 
16 


Im Interesse einer leichteren Verständigung werden im Fol- 
genden zur Bezeichnung der Elemente der Morphemklassen neben den for- 
malen Notationen geläufige Termini verwendet. Soweit es sich dabei in 
Ermangelung anderer um Termini handelt, die ihrer Herkunft nach Termi- 
ni der funktionalen Analyse sind (Derivations-, Inklinationssuffix), 
rechtfertigt sich ihre Verwendung allein durch die nachträgliche Fest- 
stellung, daß die hier distributionell definierten Klassen sich ihrem 
Bestand nach weitgehend mit den funktionell definierten Klassen decken. 
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Die im Folgenden lediglich formal mit dem Wort- 
schatz X durchgeführten Prozeduren liefern demgemäß auch 
nur die mengentheoretische Definition der Morphemklas- 
sen. Sie würden - interpretiert als Algorithmus - bei 
konkreter Anwendung auf den russischen Wortschatz zur 
Extensionalisierung der Morphemklassen führen, worauf 
wegen des Umfangs einer solchen Analyse hier verzichtet 
werden muB. Erst nach der Extensionalisierung der Klas- 
sen kónnte allerdings der exakte Nachweis geführt werden, 
daB die behauptete, der Definition der Klassen zugrunde 
gelegte Distribution auf den Wortschatz zutrifft. Wir 
begnügen uns hier mit dem Hinweis auf die experimentel- 
le Verifizierung der Strukturhypothese durch den Seg- 
mentierungsalgorithmus. Der Leser sei im übrigen dazu 
aufgefordert, an Hand segmentierter Wórter das Darge- 
stellte nachzuvollziehen und zu überprüfen. 


(1) V = (ml Kë meW A mem, (W))J 
H = {ml m ΠΕΝ A ms DIN)! 
Z = {ml N ΠΕΝ A mam (W) Απ πμ(Ν) ) 


Kommentar: Die Prozeduren verteilen die Morpheme der Wortmenge X 
nach den Eigenschaften vorderes Element oder hinteres Element bzw. 
weder vorderes noch hinteres Element der Morphemkette (kurz: Stel- 
lung "vor", '"'hinter'", "zwischen! auf die Mengen V, H und Z. 


Setzt man die Distribution der Morphemklassen vereinfacht 
an, so daB nach der Durchführung der voraufgegangenen Prozeduren 
folgende Verteilung vorläge, 
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DS 


so ließen sich zwar relativ leicht mengentheoretische Prozeduren for- 
mulieren, durch die die so angesetzten Morphemklassen isolierbar wä- 
ren, eine solche Verteilung wáre auch durch eine gróBere Zahl von Wór- 
tern belegbar, jedoch käme man bei der Anwendung der Prozeduren auf 
den gesamten Wortschatz nicht zu einer widerspruchsfreien Beschrei- 
bung der allgemeinen morphologischen Struktur russischer Wórter. 
(Konkret: Es finden sich z.B. Wörter ohne Kernmorphem, da die Kern- 
morpheme dieser Wörter unter die Klasse der Präfixe gefallen wären.) 


Für die mengentheoretische Definition der Morphemklassen ge- 
hen wir indessen von komplizierteren Verhältnissen aus, wobei nach 
der Zuordnung der Morpheme zu den Mengen V, Z und H folgende Vertei- 
lung der Morphemklassen anzusetzen ist: 


V Z H 

P 

K4 K, 

K2 

Ka 
Ks 
Ke 
DS, 
IS 


Auch diese Hypothese geht davon aus, daß ausschließlich Eie- 
mente der Klasse K (Kernmorpheme) sowohl die Stellung ''vor' wie auch 
"zwischen" wie auch ''hinter!! einnehmen können (Vgl. z.B. del-eni-e : 
ot-del-eni-e : ot-del), wodurch sie auf Anhieb isolierbar sind 
(Ky = VA Z n H). Die Hypothese berücksichtigt jedoch, daß das nicht 
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auf alle Elemente der Klasse zutrifft, sondern daB es auch solche 
gibt (Κα), die nur die Stellung wor! einnehmen (Kernmorpheme, die 
immer suffigiert, aber nie präfigiert sind, vgl. das Wortnest 
al'truizm, al'truist, ....), ferner daB es solche gibt (Κα), die 
nur die Stellung wor“ und "zwischen!!! einnehmen (Kernmorpheme, die 
immer suffigiert und von Fall zu Fall präfigiert sind oder nicht; 
vgl. das Wortnest zulik, zazulivat!, ....), usw. 


Die Hypothese berücksichtigt ferner, daß eine Teilmenge der 
Klasse DS, nämlich DS4, auch die Stellung "hinter'' einnehmen kann, 
was auf solche Elemente ds zutrifft, die endständig ohne nachfol- 
gendes Flexionssuffix vorkommen können (vgl. gud-ok, azot-óik usw.; 
für die Definition der Morphemklassen arbeiten wir ohne den Begriff 
des Nullmorphems). Des weiteren berücksichtigt die Hypothese, daB 
eine Teilmenge der Klasse IS, nämlich IS4, auch die Stellung ''zwi- 
schen'' einnehmen kann, was auf solche Elemente is zutrifft, die 
mit nachfolgendem Reflexivmorphem auftreten kónnen (vergleiche 
dym-jasc-ij-sja, raa-vetvl-ja-t'-sja; Reflexivmorpheme fallen bei 
unserer rein distributionellen Betrachtung ebenfalls unter die 
Klasse IS). Ebenfalls die Stellung zwischen! nehmen Elemente is 
ein in den relativ seltenen Wörtern, wie tr-ech-koles-n-yj und 


smol-a/-/syr-ec (siehe Strukturformeln Ill und IV in Kap. 4.5.2). 
(2) Ky, = VnZzraH 
Ka = V NZ 


Kommentar: Durch diese Prozeduren werden die Teilmengen Κι und Ka 
der Klasse K definiert. 
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(3) A = VaZ 


P = (mIN N N We (N., la) A m= mH) 
Me e MCM Wach 
^ meA ^ m,(Wa)e A ) 
Ka = AN (Pu Κι) 


Kommentar: Nach der Definition der Menge A, für die sich gemäß Hypo- 
these ergibt, daß sie sich aus den Mengen P, K+ und K3 zusammensetzt, 
wird die Klasse P definiert als die Menge derjenigen Morpheme, die 
Elemente der Menge A sind, sofern ihnen ein Morphem folgt, das eben- 
falls ein Element der Menge A ist. (Das jeweils betrachtete Morphem- 
tupel ergibt sich unter den Bedingungen des dynamischen Versetzens 
einer Schrittstelle als mn(W4) und my (Va), d.h. als letztes Morpher 
der vorderen und als erstes Morphem der hinteren Teilkette.) Die Teil- 
menge Ka der Klasse K definiert sich daraufhin als Restmenge von A 
nach Abzug der Mengen P und Κ.. 


(4) C = {mIV V V W= (Μ.Μ) ^ m= mm (M=) 
Wert WW Nach 


A méA ^ m,(W2)E A] 


Kommentar: Die Klasse C wird definiert als die Menge derjenigen 
Morpheme, denen ein Element der Menge A (also ein Präfix oder Kern- 
morphem [Κι oder Κα] ) folgt, sofern sie nicht selbst ein Element 
der Menge A sind. (Der Morphemstatus der Klasse-C-Element [Konnek- 
toren] ist problematisch. Unter dem Gesichtspunkt der Ausdrucks- 
Inhalts-Relation sind sie semantisch inhaltsleere, jedoch nicht 
funktionslose Elemente.) 
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(5) D = ZN(AuCuH) 
K, = (ml SÉ Së Kë W = (Να) ^ m = m,(Wa) 
^ meD A mM) e (PuC) } 
DS2= ΟΝ Κι 


Kommentar: Nach der Definition der Menge D, für die sich gemäß Ηγρο- 
these ergibt, daB sie sich aus der Menge K, und der Menge DS2 
(=DS\0S,) zusammensetzt, wird die Teilmenge Ky der Klasse K definiert 
als die Menge derjenigen Elemente der Menge D, denen ein Element der 
Klassen P oder C vorausgeht. Die Teilmenge DS2 der Klasse DS defi- 
niert sich daraufhin als Restmenge von D nach Abzug der Menge K,. 


m 
LL 


(6) (ζω H) Ν Ka 


Kei 
D 
u 


{miV V. N We (Νε) ^ m= mA) 
WeX WW Wach 


^ meE ^ m (Wale (PUC) } 


Kommentar: Nach Definition der Menge E, für die sich gemäß Hypothe- 
se ergibt, daß sie sich aus den Mengen Ks, 0S4 und 1581 zusammensetzt, 
wird die Teilmenge Ks der Klasse K definiert als die Menge derjeni- 
gen Elemente der Menge E, denen ein Element der Klassen P oder C 
vorausgeht. 
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an ορ ας 
(7) F = HNZ 
Ke = {πιἩ N N M= (N, z) Am = my (Ma) 
Wen MCM WLW 
^ meF A m(Ws)e (po c)] 
IS, = ΕΝ Ke 
K = Ku Kau Kau Kyu Κου Ke 


Kommentar: Nach der Definition der Menge F, für die sich gemäß Hypo- 
these ergibt, daß sie sich aus den Mengen Ke und 182 (#IS\IS,) zusam- 
mensetzt, wird die Teilmenge Kg der Klasse K definiert als die Men- 
ge derjenigen Elemente der Menge F, denen ein Element der Klassen 

P oder C vorausgeht. Die Teilmenge |52 der Klasse IS wird darauf- 
hin definiert als Restmenge von F nach Abzug der Menge Ke. Die 
Klasse K definiert sich als Vereinigung der Mengen K4 bis Ke. 


(8) Bs te ENS 


DS, - (mI N N N W= (M, Ma) A m= m (Wi) 
WeX WEW Nach 


^ meG ^ m (Wz) e (60 052) 


DS DS. u 051 


IS, z G N DS, 


IS IS, U 152 


Kommentar: Nach der Definition der Menge G, für die sich gemäß My- 
pothese ergibt, daß sie sich aus den Mengen DS, und IS, zusammen- 
setzt, wird die Menge DS, definiert als die Menge derjenigen Ele- 
mente der Menge G, denen ein Element ebenfalls der Menge G oder 

ein Element der Menge DS2 folgt. Die Klasse DS definiert sich dar- 
aufhin als Vereinigung der Mengen DS4 und DS2. Die Menge IS, ergibt 
sich als Restmenge von G nach Abzug von 0582. Die Klasse IS wird 
daraufhin definiert als die Vereinigung der Mengen IS, und 152. 
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Damit sind nun die Morphemklassen P, K, DS, IS und 
C definiert. Die den Definitionen zugrunde liegende Distri- 
bution der Morphemklassen wird im folgenden Abschnitt ex- 
pliziert und mit Hilfe von Strukturformeln zum Ausdruck ge- 
bracht. Bei zwei im russischen Wortschatz selten auftre- 
tenden, unter die Strukturierformel III fallenden Teilstruk- 
turen, und zwar bei Wörtern mit mehreren Kernmorphemen 
ohne Konnektor der Form -k-k-(Suffixkette) und der Form 
-k-p-k-(Suffixkette), wie zum Beispiel vattcae und 
krachmalsoderzascij, führen die voraufgegangenen mengen- 
theoretischen Prozeduren zu Fehlern: Die vorderen Kern- 
morpheme (kı und ks) fallen unter die Klasse P. Für das 
Segmentierungsverfahren werden diese Elemente teilweise 
in der Klasse P belassen (siehe im übrigen Kap. 6). 
Will man die Klassen rein darstellen, so lassen sich zur 
Korrektur folgende Prozeduren formulieren: 


(9) K = {πιν N N We (u, z) ^ m= m (Ws) 
WeX MCH Mach 
^ meP A m(W2) e (DSuIS) ) 
Ph = PNK 
o = KUK 


Kommentar: Als Teilmenge Ky wird die Menge derjenigen Elemente der 
Klasse P definiert, denen ein Element der Klassen DS oder IS folgt. 
Die gereinigte Klasse P' definiert sich daraufhin als Restmenge von 
P nach Abzug der Menge K7 , die korrigierte Klasse K! als Vereini- 
gung der bisherigen Klasse K und der Menge Κγ. 
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4.5.2 Morphemklassendistribution und Wortstruktur 


Die zuvor aufgeführten mengentheoretischen Proze- 
duren waren abgestellt auf die Definition von Morphem- 
klassen. Sie enthalten implizit die Distribution der 
Morphemklassen, denn sie basieren auf der Voraussetzung, 
daB ein Wort nicht durch eine beliebige Folge von Mor- 
phemen (bzw. Morphen) repräsentiert wird, sondern daß 
die Morphemfolge in Wórtern distributionell definiert 
ist. 


Grundsätzlich können für die Untersuchung der 
Distribution von Morphemen verschiedene Bezugsgrößen 
herangezogen werden; dementsprechend wäre zu unterschei- 
den zwischen: 


1.) Distribution 1. Ordnung (Morphemklassendistribution). 
Die Bezugsgrößen sind hier a) die Morphemkette des ganzen Wor- 
tes, b) die Morphemklassen. Untersucht wird die Position, die 
Morpheme der einen Klasse gegenüber Morphemen der anderen Klas- 
sen in den Morphemketten von Wortern einnehmen. 


Da also die Benachbarung verschiedener Klassen Gegenstand der 
Aussage ist, muB die formale Beschreibung der Distribution 1. 
Ordnung davon abstrahieren, daB in Morphemketten von Wortern 
auch mehrere Elemente ein und derselben Klasse benachbart sein 
können. Diese Abstraktion wird durch die Einführung des Begrif- 
fes der Distributionsklasse geleistet, wobei hier unter einer 
Distributionsklasse diejenige Menge zu verstehen ist, die alle 
Elemente enthalt, die aus einem oder einer Folge mehrerer Mor- 
pheme ein und derselben Morphemklasse bestehen. Es gelten somit 
folgende formale Beziehungen (für die Formalisierung der einer 
Morphemklasse zuzuordnenden Distributionsklasse wahlen wir ein 
nachgestelltes d): 


PdcP(P) KDcP(K)  OSdcP(DS) ISdcP(IS) ` Cdc (C) 
pd € Pd kd € Kd dsd € DSd isd € ISd cd e Cd 
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Das Ergebnis der Untersuchung ist eine Beschreibung der all- 
gemeinen formalen Struktur von Wörtern einer Sprache. 


2.) Distribution 2. Ordnung (Distribution von Morphemen in 
Elementen von Distributionsklassen). Die Bezugsgrößen sind hier 
a) die Elemente einer Distributionsklasse, b) die Morpheme der 
entsprechenden Morphemklasse. Untersucht wird die Verkettung von 
Morphemen ein und derselben Klasse, unabhängig davon, welche Po- 
sition ein jeweils betrachtetes Morphem in der Morphemkette des 
Distributionsklassenelements einnimmt. Die Distribution 2. Ord- 
nung wird beschrieben in Form von Listen von Morphemen ein und 
derselben Klasse, die einem Morphem ebenfalls derselben Klasse 
vorausgehen bzw. folgen können. 


3.) Distribution 3. Ordnung (Distribution von Morphemen an 
der Grenze von Distributionsklassen). Die Bezugsgrößen sind hier 
a) das letzte Morphem eines Elements der nach der Distribution 

1. Ordnung vorausgehenden, b) das erste Morphem eines Elements 
der nach der Distribution 1. Ordnung folgenden Distributionsklas- 
se. Die Distribution 3. Ordnung wird beschrieben in Form von Li- 
sten von Morphemen ein und derselben Klasse, die einem Morphem 
der benachbarten Klasse vorausgehen bzw. folgen können. 


Alle drei Stufen der Beschreibung der Distribution 
von Morphemen spielen für die maschinelle Segmentierung 
eine wesentliche Rolle. Auf den Einsatz von Kombinations- 
listen (Distribution 2. und 3. Ordnung) wird in der Dar- 
stellung des Segmentierungsverfahrens eingegangen. Was 
hier jedoch interessiert, ist die den zuvor mengentheore- 
tisch definierten Morphemklassen zugrunde liegende Mor- 
phemklassendistribution (Distribution 1. Ordnung), die 
weiterer Explikation bedarf. 
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Wir gehen folglich davon aus, daß die Morphemklas- 
sen definiert sind und von jedem Morphem bekannt ist, wel- 
cher Morphemklasse es angehört. Gegeben sei ein repräsen- 
tatives Korpus russischer Wörter, die wir segmentiert und 
notiert haben, einmal in der Form von Ketten formalisier- 
ter Morphemklassenelemente [1] und zum andern in der Form 
von Ketten formalisierter Distributionsklassenelemente [2]. 


(z.B.: oböö-estv-enn-o-pro-iz-vod-i-tel'n-yj: 
[1] k - ds - d-c-p -p- k-ds - ds - is 
[2] kd - dsd-cd - pd - kd - dsd - isd) 


Auf dieser Grundlage lassen sich nun folgende Aus- 


sagen machen!?; 


1.) Es existieren folgende Tupel von Morphemklassenele- 
menten - sie werden in der Matrix signiert durch ` 


folgendes 
„element 
vor- 


ausgehen 
des Element - 


17 Bei etwa 0,1 % der Wörter des russischen Wortschatzes lie- 
gen abweichende Verhältnisse vor, von denen hier zunächst abstrahiert 
werden soll. Die für diese Wörter notwendigen Korrekturen werden am 
Schluß des Kapitels bei der Aufstellung der Strukturformeln gemacht. 
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Die Matrix ist folgendermaBen zu interpretieren: 


a) Einem Element c kann ein Element p oder k (aber 
nicht ein Element c oder ds oder is) folgen. 


b) Einem Element c kann ein Element k oder ds (aber 
nicht ein Element c oder p oder is) vorausgehen. 
Usw. 


2.) Es existieren folgende Tupel von Distributions- 
klassenelementen - sie werden in der Matrix sig- 
niert durch x: 


folgendes 
"Element 
vor- 
ausgehen- N 
des Element ` 


Von 25 formal möglichen Tupeln sind 8 realisiert. 


3.) Für die Struktur der Distributionsklassenelemente 
gelten, abzuleiten aus den Informationen der Dia- 
gonalen c/c bis is/is der Matrix (1), folgende 
allgemeinen Aussagen: 


3.1) Die Elemente der Klassen Kd und Cd bestehen im- 
mer aus einem Morphem k bzw. c, woraus folgt: 
Kd = K Cd = C 
kd = k cd = c 
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3.2) Die Elemente der Klassen Pd, DSd und ISd beste- 
hen jeweils aus n Morphemen der entsprechenden 
Morphemklassen P bzw. DS bzw. IS, wobei n den 
Wert 2 1 hat: 

Λ n(p)21; N n(ds)21; Λ n(is)21 
pepdePd dsedsdeDsd iseisdelSd 


4.) Für die Anzahl n der Elemente einer Distributions- 
klasse im Wort gelten folgende Werte oder Bezie- 


hungen: 
4.1) n(kd) = n(k) 21 
4.2) n(cd) = n(c) = n(k)-1 
4.3) n(pd) < n(k) 
4.4) n(dsd) < n(k) 
4.5) n(isd) s 1 


Aus den Aussagen 4.1) bis 4.5) folgt, daB ein Morphem 
der Klasse K das minimale Element eines Wortes ist. 


5.) Erste und letzte Elemente eines Wortes: 


5.1) als erste Elemente können auftreten: pd und kd, 


5.2) als letzte Elemente kónnen auftreten: kd, dsd 
und isd. 


Aus den Informationen, die Matrix (2) liefert, läßt sich 
für die allgemeine Morphemklassendistribution folgender 
Graph aufstellen - wir gehen von rechts nach links vor, be- 
ginnend mit dem Element isd, für das die Matrix ausweist, 
daß es nur letztes Element der Kette sein kann: 


` periodisch auftretende 
| Teitkerte | n(k)>1 


periodisch auftretende Tell- 
kette | n(k)>2 
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Verknüpft man nun die Aussagen des Graphen mit 
den unter den Punkten 3.) bis 5.) getroffenen Aussagen, 
so läßt sich daraus für die Beschreibung der allgemei- 
nen Struktur russischer Wörter folgende Formel ableiten: 


(1) (n(k€ W)-1) « (pd - k — dsd — c) — pd — k — dsd — isd | π(ρ)εο für jedes formele Etenent pé 
n(ds)20 für jedes formale Element dad 
π(15}29 fOr jedes formale Element isd 


Unter diese Struktur fallen alle mehrkernigen 
(n(keW)>1) russischen Wörter mit Konnektor "o", "e", 
"i" und ebenfalls alle einkernigen (n(keW)=1) russi- 
schen Wörter ohne Einschränkung. Für letztere nimmt 
das Formelglied (n(keW)-1) den Wert O an, so daß die 
periodische Teilkette (pd-k-dsd-c) entfällt und somit 
folgende für alle einkernigen Wörter zutreffende Struk- 
turbeschreibung resultiert: 


(II) pd- k + dsd ~ isd | Bedingungen wie unter (I) 


Nicht unter die Struktur (I) fallen mehrkernige 
Worter ohne Konnektor und mit Konnektor "-", die im um- 
gangs- und literatursprachlichen Wortschatz mit einem 
Anteil von weniger als 0,1 % vertreten sind. Für erste- 
re ist folgende Struktur anzusetzen: 


(III) in(k € W)-1] e(pd = k + dsd = isd) + pd = k — dsd = isd | Bedingungen wie unter (1V) 


Beispiele: sumassedsij, trechkoleenyj 


für letztere: 


(IV) (m(k < W)-1) ο (pd — k — dsd — isd > c) - pd > k > dad + isd | αρ) Für jeder formate Element pd 
n{ds)2D für Jedes foreslo Clement dd 
A(1s)20 für jedes foresle Element isd 
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Beispiele: smola-syrec 


chozjajstvenno-protzvodstvennyj 


Die Strukturformel (IV) impliziert alle Strukturen, 
die von Formel (I) beschrieben werden, und bildet deshalb 
die Grundlage des maschinellen Segmentierungsverfahrens.!® 


18 L38t man in der Strukturformel (IV) auch für das Element c 
den Wert 0 zu, so impliziert diese Formel auch die Struktur (111) und 
somit sámtliche Strukturen russischer Wórter. Da jedoch die maschinel- 
le Identifizierung einer nicht durch einen Konnektor markierten Teil- 
kettengrenze den Segmentierungsalgorithmus wesentlich verkomplizieren 
würde, wird in Anbetracht der leicht enumerierbaren Zahl der Wórter 
der Struktur (II auf deren vollständige automatische Segment ierung 
verzichtet. (Uber die Behandlung solcher Wórter im Segmentierungsver- 
fahren siehe unter Kap. 6.) 
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5. GRUNDZOGE DES SEGMENTIERUNGSALGORITHMUS 


Wir werden im ersten Teil dieses Kapitels die dem 
Verfahren zugrunde gelegte Segmentierungsstrategie entwik- 
keln und im zweiten Teil auf einige spezielle Algorithmen 
eingehen. 


5.1 Segmentierungsstrategie 


Wir machen fiir die Aufstellung eines Segmentie- 
rungsalgorithmus zundchst zwei Voraussetzungen: Gegeben 
ist die allgemeine formale Struktur russischer Worter, 
ausgedrückt in der Strukturformel (IV); gegeben sind 
ferner Listen, die jeweils die Elemente einer Morphklas- 
se umfassen u.zw. 


eine Präfixliste (PGL) 

eine Inklinationssuffixliste (ISL) 
eine Derivationssuffixliste (DSL) 
eine Wortkernlistel? (KL) 


2 WH -e 


(Wegen des geringen Umfanges der Konnektorklasse werden 
deren Elemente nicht über eine Liste verarbeitet, son- 
dern im Algorithmus als Konstanten eingesetzt.) 


5.1.1 Formaler Ansatz zu einer Segmentierungsstrategie 


Löst man die Strukturformel (IV) auf, so erlaubt 
sie folgende Gliederungen der formalen Morphemketten von 
russischen Wörtern: 


19 Eine terminologische Unterscheidung zwischen Morphem und 
Morph nehmen wir bei der Bezeichnung der Elemente von Klassen nur 
in der Klasse K vor: Kernmorphem - Wortkern. Demgemäß sprechen wir 
hier von '"Wortkernkiste!! bzw. im Folgenden auch kürzer von ''Kern- 
liste", 
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1.) Gliederung nach AuBen- und Innenketten: 
(1.1) 


[oma [a ee nese a < Cj, ee - 


LK IK RK 


Für den im russischen Wortschatz am häufigsten auftreten- 
den Fall, n(kcW)z1-» [n(keW)-1] = 0, also für einkernige 
Wórter, ergibt die entsprechende Gliederung: 


d us 
LK IK RK 


In dieser Darstellung der Strukturen bedeuten: 


LK = linke Außenkette 
IK = Innenkette 
RK = rechte Außenkette; 


die allgemeine Form dieser Gliederung ist 
LK - IK - RK. 


Eine linke Außenkette (LK) besteht aus einer formalen 
Präfixkette (n(p)20); 


eine Innenkette (IK) besteht entweder (1.2) aus einem 
Wortkern oder (1.1) aus einer mit einem Wortkern begin- 
nenden und mit einem Wortkern endenden komplexen Kette; 


eine rechte Außenkette (RK) besteht aus einer formalen 
Suffixkette (n(ds)20; n(is)20). 


2.) Gliederung nach periodisch auftretenden Ketten: 


(2.1) 


pd = kj = ded, 40 Je 0 ., bn: 6241. di -| yea] [8mm tm 
V 975 d 
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Für den Fall, daß [n(keW)-1] = O ist, resultiert 


(2.2) pd —- k + dsd > isd 


Daraus ergibt sich für die Strukturformel (IV) folgende 
Vereinfachung: 


(2.3) [n(kcW)-1] ° (Q + c) + Q 


In dieser Darstellung der Strukturen bezeichnet Q ein 
Quadrupel, das immer aus der formalen Kette pd + k = 

dsd - isd besteht, für deren Glieder pd, dsd und isd 

die Bedingungen gelten: n(p)20; n(ds)20; n(is)aO. 


Für den Fall, daB n(keW) = 1 ist (einkernige Wór- 
ter), reprdsentiert Q die gesamte Kette des Wortes; für 
den Fall, daß n(keW)22 ist (mehrkernige Wörter), reprd- 
sentiert Q formal dquivalente Teilketten des Wortes. 


Auf der Grundlage dieser formalen Gegebenheiten 
1äßt sich zunächst folgender Rahmen einer Segmentierungs- 
strategie abstecken: 


1. ist eine Entscheidung darüber zu treffen, ob ein 
Wort aus einer einzigen formalen Kette Q oder aus 
mehreren formalen Teilketten Q besteht. 

2. Ist letzteres der Fall, so muB das Wort in die 
Teilketten Q segmentiert werden. 

3. sind die formalen Ketten Q in die sie konstitu- 
ierenden Morphketten zu segmentieren. 


Entsprechend gliedern sich die folgenden drei Abschnitte 
der Darstellung. 
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5.1.2 Segmentierung der Gesamtkette als formale Kette 
LK + IK + RK 


Ober die Frage, ob ein Wort aus einer einzigen for- 
malen Kette Q oder aus mehreren formalen Teilketten Q be- 
steht, entscheidet der Inhalt der formalen Kette IK. Zur 
Gewinnung der Innenkette (IK) bietet die Struktur LK + 
IK — RK an, folgendermaßen zu verfahren: Die AuBenket- 
ten LK und RK werden von links und von rechts elementwei- 
se fortschreitend abgebaut, indem der jeweils links bzw. 
rechts verbleibende Rest der Zeichenkette mit den Elemen- 
ten der Präfixliste bzw. der Suffixlisten verglichen 
wird. Sind alle Präfixe und Suffixe abgebaut (der weite- 
re Vergleich der Restkette mit den Listen fällt negativ 
aus), so ist die Restkette - IK. 


Die so gewonnene Innenkette wird nun mit den Ele- 
menten der Kernliste verglichen. Fällt der Vergleich ne- 
gativ aus - Vollständigkeit der Kernliste vorausgesetzt -, 
so hat IK die im vorigen Abschnitt unter (1.1) aufgeführ- 
te komplexe Struktur, es handelt sich also um ein Wort 
mit mehreren formalen Teilketten Q. Fallt der Vergleich 
positiv aus, so besteht das Wort aus einer einzigen Ket- 
te Q, und die Segmentierung ist bereits komplett. 


Das Verfahren zur Entscheidung über die Struktur 
der Innenkette besteht also in der Prüfung auf die Aqui- 
valenz der Strukturen LK ~ IK + RK und Q, anders ausge- 
drückt, es wird grundsätzlich zunächst versucht, ein 
Wort als einkerniges Wort zu segmentieren. Der zuvor 
skizzierte Segmentierungsansatz ist somit bereits das 
Verfahren zur Segmentierung der formalen Ketten Q. 


Wegen der Fülle der Probleme, die sich mit der 
Segmentierung der Außenketten verbinden, werden wir 
diesen Gegenstand in dem Abschnitt über die Segmentie- 
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rung formaler Kette Q noch eingehender behandeln. 


5.1.3 Segmentierung der Gesamtkette als formale Kette 
(n(kecW)-1] > (Q +c) - Q I| n(keW) 2 2 


Für den Fall, daB der vorausgegangene Vergleich 
der Innenkette mit den Elementen der Kernliste negativ 
ausgefallen ist, besteht nun die Aufgabe darin, die re- 
sultierende Struktur [n(keW)-1] - (Q < c) < Q | n(keM) 
> 2 in die formalen Teilketten Q zu segmentieren. 


Die Struktur weist aus - verdeutlicht in Schema 
(2.1), Abschnitt 5.1.1 -, daB jeweils zwei Teilketten Q 
über einen Konnektor (c) miteinander verknüpft sind. Das 
Segmentieren der Gesamtkette in die Teilketten Q besteht 
also zunächst in der Identifizierung der Konnektoren. 


Als Konnektor können zwar nur die Zeichen "o", "e", "i" 
. 420 
Sach 


D 


"-" auftreten, jedoch kommen "o", "e", auch, u. zw. 
sehr háufig im Zeichenbestand anderer Morphe vor; ledig- 
lich das Zeichen "-" ist innerhalb der Zeichenkette eines 
Wortes eindeutig als Konnektor ausgewiesen. Die dadurch 
entstehenden Móglichkeiten, die Zeichenkette eines Mortes 
in Teilketten zu zerlegen, soll folgendes Beispiel zeigen: 


(Siehe Graphik auf der nächsten Seite.) 


9 Wegen des seltenen Auftretens des Konnektors -i- wird auf 
seine Identifizierung in dem anhängenden Segmentierungsprogramm ver- 
zichtet. Über die Behandlung von Wórtern, die diesen Konnektor ent- 
halten, siehe Kap. 6 
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(1) 
estestvennonauen y j 

Uta cot Nis de τον ee ea ο ae 

N Anzahl 

lpotentielle der 

Konnektoren Teil- 
ketten 

1. tierung jes t| is tvennonauény j | 

S u estest v| [η nonaucny 4 $2 ' 

e? i | estestven n] |n aucny j 

4 " es d Ë t | nnonauenyj 

5 u estest d In n| |n aucny j| 

6 u es d ist ven d | n a u Kn y 3 

17 es t| js t vl L n | naucnyj 4 


Allgemein gibt es, bezogen auf die Anzahl n potenziel- 
ler Konnektoren 2n -1 verschiedene Segment ierungen. 


Die Entscheidung darüber, ob eine jeweilige Seg- 
mentierung in Teilketten zutreffend ist, fallt erst bei 
der Analyse der Teilketten. Erst wenn alle Teilketten ei- 
ner jeweiligen Segmentierung als formale Ketten Q seg- 
mentierbar sind, wird auch diese Segmentierung in Teil- 
ketten akzeptiert. Der Algorithmus zur Segmentierung 
formaler Ketten Q wird im nächsten Abschnitt behandelt, 
wir setzen ihn für das Folgende als gegeben voraus und 
verwenden für ihn die Notation "Q-Test". 


Die große Zahl potentieller Segmentierungen eines 
Wortes in Teilketten fordert eine rationelle Algorith- 
mierung, die mit dem in dem nachfolgenden FluBdiagramm 
dargestellten Vorgehen erreicht wird: 
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|) Flussdiagramm des Algorithmus zur Teilung mehrkerniger Wörter in Teil. 
ketten der Struktur Q 
(Konnektorroutine) 


Positionen ftir Schnittstellen (im Beispiel) 


7654321 potentielle 
Konnektorpositionen 


weglevodorodopodobmri] — 7 — | 
Endposition fangsposition 


Eine erste Schnitt- 
stelle auf die 
Anfangsposition 

setzen 


Schnittstelle 
beibehalten 


Eine weitere 
Schnittstelle 

auf die nächst- 
mögliche Position 
setzen 


Schnittstelle 
aufgeben und die 
zuvor beibehalte- 
ne Schnittstelle 
um eine Position 
vorsetzen 


Schnittstelle um 
eine Position 
vorsetzen 


Endposition 
erreicht ? 


Liegt die zu- 
vor beibehal- 
tene Schnittstelle 
auf der Anfangs- 
position ? 


Endposition 
erreicht ? 


rechte 
Teilkette bis 
zur zuvor beibe- 
haltenen Schnitt- 
stelle segmen- 
tierbar?* 


Eine Segmentierung 
der Gesamtkette 
ist erreicht 


Endposition 
erreicht ? 


* unter "segmentierbar" ist hier zu verstehen: als formale Kette Q 
segmentierbar. An dieser Stelle den Algorithmus erfolgt der Ein- 
sprung in den Algorithmus zur Segmentierung formalerKettensQo (354 
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Das Vorgehen soll an dem Beispiel estestvennonauényj 
exemplifiziert werden: 


Nach der Feststellung der Position potentieller 
Konnektoren wird eine erste Schnittstelle auf die 1. Kon- 


21 und die sich dadurch 


nektorposition von rechts gesetzt 
ergebende rechte Teilkette dem Q-Test unterzogen. Dieser 
fallt positiv aus (die Teilkette nauónyj ist als formale 
Kette Q segmentierbar); die Schnittstelle wird beibehal- 
ten und die linke Teilkette geteilt, indem eine weitere 
Schnittstelle auf die nächstmögliche Konnektorposition 
(2) gesetzt wird. Darauf wird die sich wieder rechts 
(zwischen der 2. und 1. Schnittstelle) ergebende Teilket- 
te (nn) dem Q-Test unterworfen. Da dieser negativ aus- 
fällt, wird die Konnektorposition (2) zunächst aufgege- 
ben, die Schnittstelle auf die nächstmögliche Position 
(3) vorgesetzt und der Q-Test mit der sich rechts (zwi- 
schen dieser und der zuvor beibehaltenen (1.) Schnitt- 
stelle) ergebenden Teilkette (stvenn) ausgeführt. Da 

auch dieser Test negativ ausfallt, wird auch die 3. Kon- 
nektorposition zunachst aufgegeben und jetzt, da der Vor- 
rat an Konnektorpositionen verbraucht ist, die gesamte 
links von der zuvor beibehaltenen Schnittstelle stehenden 
Kette (estestvenn) dem Q-Test unterzogen. Dieser fällt 
positiv aus und damit ist eine auf die Struktur der Ge- 
samtkette, [n(keW)-1] - (Q +c) ~Q | n(keW) 2 2, zu- 
treffenden Segmentierung gefunden. 


Da prinzipiell mit der heteromorphen Segmentier- 
barkeit einer Zeichenkette zu rechnen ist, muß das Aus- 
testen durch eine erneute Teilung der Gesamtkette fort- 
gesetzt werden: Die erste (allgemein: hinterste) Schnitt- 
stelle wird nun aufgegeben und auf die nächstmögliche 


251 Das Vorgehen von links ergäbe ein äquivalentes Verfahren. 
Im konkreten algorithmischen Ablauf wird eine formale erste Schnitt- 
stelle an das Ende der Kette gesetzt (vergl. FluBdiagramm) 
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(2.) Konnektorposition vorgesetzt, wodurch sich eine län- 
gere rechte Kette (nnonaucnyj) ergibt. Mit dem negativen 
Ausgang des Q-Tests wird die Schnittstelle wieder, nun 
auf die 3. und letztmogliche Konnektorposition, vorge- 
setzt. Indem auch mit dieser Teilung keine Segmentierung 
der rechtsständigen Kette (stvennonaučnyj) als formale 
Kette Q erreichbar ist, sind alle Segmentierungsmöglich- 
keiten erschopft, und die zuvor gefundene Segmentierung 
estestvenn/o/nauónyj (est-estv-enn-o-na-uG-n-yj) ist ve- 
rifiziert. Die Prozedur ist bei diesem Wort mit insgesamt 
sechs Schritten (Q-Tests) abgeschlossen. 


An einem anderen, komplizierteren Beispiel mit sie- 
ben potentiellen (davon drei echten) Konnektoren sei die 
Schrittfolge der Teilung und Austestung mit einem Schema 
demonstriert. (Da das minimale Glied einer formalen Ket- 
te Q aus einem Element k und dieses wiederum aus minimal 
zwei Zeichen?? besteht, werden Teilungen, die zu Teilket- 
ten mit einem Zeichenumfang « 2 führen, vom Algorithmus 
übergangen.) Teilketten, die einen positiv verlaufenden 
Q-Test liefern, sind im Schema durch Fettdruck hervorge- 
hoben. 


Das Schema zeigt, daB eine zutreffende Segmentie- 
rung der Gesamtkette erreicht wird, wenn in einem voll- 
ständigen Teilungsdurchlauf durch die Kette bei aufein- 
ander folgenden Teilungsschritten jede sich dabei erge- 
bende Teilkette als formale Kette Q segmentierbar ist. 
Dieses Wort läßt insgesamt 127 verschiedene Segmentie- 
rungen der Gesamtkette in Teilketten zu. Von diesen ent- 
hält der größte Teil partiell gleiche Teilketten. (Siehe 


°° Wortkerne, die nur aus einem Zeichen bestehen, sind Ju- 


Berst selten; zur Behandlung von Wórtern, die einen solchen Kern 
enthalten, siehe Kap. 6. 


* 
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dazu auch Schema (1).) Dadurch, daB der Algorithmus - wie 
das Schema zeigt - ein wiederholtes Testen gleicher Teil- 
ketten vermeidet, können die 127 Teilungsmöglichkeiten 
der Gesamtkette bereits mit 20 Schritten vollständig aus- 
getestet werden. (In diesem Falle liefert die Segmentie- 
rung zwei heteromorphe Ergebnisse.)23 


(3) 
7 6 5 D 3. 2 1 potentielle 


| | | | | | l Konnektoren 


I " = 
ugievodorodopodobnyj Konlenwdsser 


stoffShnlich!! 


o 
^O 
<= 
o 
1 
2 
2 9 

< 
Ww + 
2 v0 
co x 
— 42 
< E 
9 
— wm 
> 9 
2,0 
Wi 
e 
c 
3 
-- 
o 
= 


2 " Ρ 
3 Der Leser möge die folgende Kettenteilung anhand des Εἰυβ- 
diagramms nachvollziehen. 
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5.1.4 Segmentierung der formalen Kette Q 


Die formale Kette Q hat, wie oben beschrieben, die 
Struktur pd > k dsd - isd | n(p)20; n(ds)20, n(is)20 für 
die formalen Glieder pd, dsd, isd. Diese Struktur ist 
dquivalent der Struktur LK + IK — RK unter der Voraus- 
setzung, daB die Innenkette (IK) nur aus einem Element k 
besteht. Der in Abschnitt 5.1.2 skizzierte Ansatz zur Seg- 
mentierung der allgemeinen Struktur LK + IK + RK lieferte 
deshalb für den Fall, daß die Innenkette durch Vergleich 
mit den Elementen der Kernliste als ein Wortkern identi- 
fiziert werden konnte, im Prinzip bereits die vollständi- 
ge Segmentierung. Dieser Segmentierungsansatz soll nun, 
unter Berücksichtigung der mit der AuBenkettensegmentie- 
rung verbundenen Probleme, weiter ausgeführt werden. 


5.1.4.1 Das Heteromorphieproblem und seine Lösung 


Der Segmentierungsansatz würde, in der in Abschnitt 
5.1.2 beschriebenen Form in ein Rechenprogramm umgesetzt, 
zu erheblichen Fehlerergebnissen führen. Die Segmentierung 
der AuBenketten, die durch Vergleich der jeweils front- 
bzw. endständigen Zeichenfolge der Restkette mit den Ele- 
menten der Präfix- bzw. Suffixlisten so weit geführt wird, 
bis ein weiterer Vergleich negativ ausfällt, würde - im 
Falle formaler Ketten Q - in vielen Fallen einen in seinem 
Zeichenbestand beschnittenen Wortkern, in manchen Fallen 
überhaupt keinen Rest übrig lassen. Nicht einmal die rich- 
tige Abtrennung eines ersten Präfix (von links) und eines 
ersten Suffix (von rechts) wäre garantiert, denn dieser 
Ansatz berücksichtigt noch nicht die im Russischen in rei- 
chem Maße auftretende formale Heteromorphie von Zeichen- 
ketten. 
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Das Problem soll zunächst anhand einiger Zeichen- 
gruppen angedeutet werden: 
Aus der Zeichengruppe “vos" lassen sich bei der Segmen- 
tierung formal 5 Präfixe gewinnen: 


Anfangspräfix Rest 

v- Prafixe -o- und -s- 
2. vo- Präfix -8- 
3. vos- kein Rest 


Aus der Zeichengruppe "predo" lassen sich bei der Seg- 
mentierung formal ebenfalls 5 Präfixe gewinnen: 


Anfangspräfix Rest 

I pre- Präfix -do- 
2. pred- Präfix -0- 
3. predo- kein Rest 


Eine Reihe weiterer Beispiele von Heteromorphie in prä- 
fixalen Zeichengruppen ließen sich anführen (siehe auch 
Output-Liste am Ende des Kapitels). Ahnlich sehen die 
Verhältnisse in suffixalen Zeichenketten aus: 


So ist dem Zeichenbestand nach das Inklinationssuffix -i 
in dem Inklinationssuffix -ti, das Inklinationssuffix -j 
in den Inklinationssuffixen -yj, -ij und -oj enthalten 
usw., ferner das Derivationssuffix -2- in dem Deriva- 
tionssuffix -ie- und dieses wiederum in dem Derivations- 
suffix -seie-; -t- in -at-, dieses wiederum in -δαί-; -a- 
in -va- und dieses wiederum in -zva- und -yva- usw. 


Der Umfang der sich daraus in den vollständigen 
Zeichenketten von Wortern ergebenden Heteromorphie-Pro- 
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blematik soll am Beispiel der erwšhnten Zeichengruppe 
"vos" dargestellt werden, die in folgenden Konfigura- 
tionen auftritt: 


SE: 


Prafix v-, der Rest gehort zum Kern, k,: 
v-ostr-i-t' "schärfen" 


Präfix vo-, der Rest gehört zum Kern, Kai 
vo-sled "hinter, nach" 


Präfix vos-: 


vos-stanov-i-tel-'  "Reduktionsmittel" 


Kern ka oder das endständige Derivationssuffix 

des Gliedes dsd, enden auf "v", "o" ist Konnek- 

tor, der Rest gehört zum Kern, Κα: 
protiv-o-star-i-tel-' "Alterungsschutzmittel" 
top-liv-o-snabz-ent-e "Brennstof fversorgung" 


Kern Κα endet auf "v", "o" ist Konnektor, "ο" ist 
frontständiges Präfix des Gliedes pd: 
prav-o-8-po-sob-n-ost-' "Rechtsfahigkeit” 


Kern k4 beginnt mit der vollstaándigen Gruppe (und 
endet mit einem Zeichen, das auch als Derivations- 
suffix auftritt): 


vosk-ov-oj "wächsern" 


. Formale Heteromorphie: Präfixe v-o-s (siehe oben). 


Die Präfixkombination v-o- kommt im russi- 
schen Wortschatz nicht vor, wohl aber die 
Kombination o-s-. 


Formale Heteromorphie: Präfixe vo-s (siehe oben). 
Diese Kombination tritt im russischen Wort- 
schatz ebenfalls nicht auf. 
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Die Beispiele zeigen, daB einzelne Zeichengruppen 
sowohl vollständig Bestandteile von Elementen verschiede- 
ner Morphklassen sein kónnen wie auch über mehrere benach- 
barte Morphe verteilt auftreten können. Im Beispiel .6. 
1äßt sich der Zeichenbestand des Wortkerns vollständig in 
formale AuBenketten aufteilen (die Segmentierung würde 
keinen Wortkern übrig lassen). 


Die sich dadurch für die Segmentierungsstrategie 
ergebende Problemstellung soll anhand des Beispiels 
predosuditel'nyj - die richtige Segmentierung ist pred- 
o-sud-i-tel'n-yj - durch einen Graphen verdeutlicht wer- 
den: 


Kleinste potentielle RK 
potent ielle Stufen 


T n 
poo e 


Das Beispiel zeigt, daB keine der zwischen den 
AuBenketten verbleibenden Innenketten den vollständigen 
Zeichenbestand des Wortkerns -sud- hat. Die linken AuBen- 
ketten haben alle den gleichen Zeichenumfang, die rechten 
AuBenketten ebenfalls, bis auf RK 7. DaB prinzipiell auch 
unterschiedlich lange linke AuBenketten bei der Segmentie- 
rung anfallen können, mag das Beispiel predotvratit’ 
zeigen: 
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1 pre do 
2 ο 
(2) pred 
3 qs v 
4 predo 


Der Algorithmus zur Segmentierung formaler Ketten 
Q muB also folgende Gegebenheiten berücksichtigen: 


1. Die AuBenkettensegmentierung kann bei einem Wort 
zu unterschiedlichen Folgen von Morphen führen; die- 
se kónnen zunachst nur als potentielle AuBenketten 
aufgefaBt werden. 


2. Zwischen potentiellen AuBenketten kónnen unter- 
schiedlich lange Restketten (IK) verbleiben; auch 
diese können zunächst nur als potentielle Ketten 
aufgefaBt werden, u.zw. als kleinste potentielle 
Innenketten, d.h., 


3. Elemente potentieller AuBenketten kónnen zum 
Zeichenbestand des Wortkerns gehóren (dabei han- 
delt es sich immer um ganze Elemente!). Es ist 
nicht ausgeschlossen, daB keine der bei der AuBen- 
kettensegmentierung verbleibenden Restketten (IK) 
den vollen Zeichenbestand des Wortkerns hat. 


Um bei dieser Sachlage zu einer zutreffenden Seg- 
mentierung eines Wortes zu kommen, wird im wesentlichen 
die Kombination der zwei in den folgenden Abschnitten 
beschriebenen Mittel eingesetzt: Die Segmentierung in 
potentielle Morphketten und der Zugriff auf Morphkombi- 
nationslisten. 
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5.1.4.1.1 Segmentierung in potentielle Ketten 


Der Algorithmus wird wie bei der Segmentierung 
in Teilketten, so auch zur Segmentierung formaler Ketten 
Q wiederum darauf eingerichtet, eine Zeichenfolge zunächst 
in eine beliebige Zahl potentieller Ketten zu segmentie- 
ren. Das in Abschnitt 5.1.2 skizzierte Grundschema der Seg- 
mentierung LK + IK + RK bleibt, doch folgen die Segmentie- 
rungsschritte dem Prinzip des im vorausgehenden Abschnitt 
notierten Graphen (1). D.h., für jede Stufe der formalen 
AuBenketten - in der präfixalen Kette also beginnend mit 
der frontständigen Zeichenfolge - werden alle potentiellen 
Elemente identifiziert. Die in der ersten Stufe ermittel- 
ten potentiellen Elemente eröffnen folglich eine entspre- 
chende Zahl potentieller AuBenketten. In jeder folgenden 
Stufe muB bei jeder Kette wiederum mit dem Auftreten meh- 
rerer Elemente gerechnet werden, mit denen sich die Ket- 
ten entsprechend verzweigen. Eine jeweilige potentielle 
AuBenkette bricht ab, wenn der weitere Vergleich der Rest- 
kette mit den Elementen der zutreffenden Liste negativ 
ausfällt. Die Summe aller jeweils zuletzt gefundenen Ele- 
mente ergibt die Zahl der längsten potentiellen AuBenket- 
ten. Das Produkt der Summe aller längsten potentiellen LK 
und der Summe aller längsten potentiellen RK ergibt die 
Zahl der potentiellen Gesamtketten mit kleinster potentiel- 
ler Innenkette. 


Die Feststellung, ob eine potentielle Gesamtkette 
auf die Struktur Q zutrifft, wird nach dem in Abschnitt 
5.1.2 bereits angegebenen Prinzip vorgenommen, indem die 
jeweils zwischen zwei potentiellen AuBenketten verbleiben- 
de Innenkette mit den Elementen der Kernliste verglichen 


wird. 
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In einer ersten Serie von Vergleichsprozeduren wer- 
den die durch Permutation der vollständigen potentiellen 
AuBenketten zu gewinnenden kleinsten Innenketten dem Ver- 
gleich unterworfen, sofern ihr Zeichenumfang 2 2 ist. 
Da ein, mehrere oder auch alle Elemente einer längsten 
potentiellen Außenkette zum Zeichenbestand des Wortkernes 
gehören können, müssen anschließend die Außenketten von 
innen her elementweise wieder abgebaut werden, und die 
entsprechend in ihrem Zeichenbestand nach links oder 
rechts erweiterte Innenkette muß jeweils erneut die Ver- 
gleichsprozedur durchlaufen. 


Da prinzipiell mit heteromorpher Segmentierbar- 
keit der Gesamtkette zu rechnen ist, müssen die Außenket- 
ten auch dann wieder bzw. weiter abgebaut werden, wenn 
bereits eine Innenkette zu einem positiven Vergleich ge- 
führt hat und damit eine auf die Struktur Q zutreffende 
Segmentierung der Gesamtkette gefunden wurde. Von zwei 
heteromorphen Segmentierungen ist zwar in der Regel nur 
eine die richtige, jedoch gibt es keine Gewähr dafür, 
daß das die zuerst gefundene ist. Der Algorithmus unter- 
bricht lediglich dann den weiteren Abbau einer Außenket- 
te, wenn dadurch eine Innenkette entsteht, die länger als 
das längste Element der Kernliste ist. 


Auf den Vorgang der rationellen Speicherung belie- 
big vieler beliebig langer potentieller Außenketten wird 
in Abschnitt 5.2.2 eingegangen. 


2h Wortkerne, die nur aus einem Zeichen bestehen, sind du- 


Berst selten, zur Behandlung von Wórtern, die einen solchen Kern 
enthalten, siehe Kap. 6. 


` 
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5.1.4.1.2 Einsatz von Elementkombinationslisten 


Man kann anhand des Graphenschemas (1), S. 48 
schnell durchrechnen, daß sich für das Wort predosuditel'nyj, 
eingerechnet den Abbau der Außenketten, 15 verschiedene 
linke und 17 verschiedene rechte AuBenketten und damit 255 
unterschiedliche Gesamtketten ergeben. Mit jeder der dabei 
auftretenden verschiedenen Innenketten wäre der Vergleich 
mit den Elementen der Kernliste durchzuführen. Nimmt man 
die nächste Dimension dazu, die sich ergibt, wenn die in 
Bezug auf die Struktur Q zu analysierende Kette wiederum 
nur eine der potentiellen Teilketten eines Wortes komple- 
xer Struktur ist (siehe Abschnitt 5.1.3), so liegt die 
Zahl der von dem in ein Rechenprogramm umgesetzten Algo- 
rithmus insgesamt zu initialisierenden Maschineninstruk- 
tionen in der Größenordnung von 105 (!). Noch wesentli- 
cher ist der Aspekt, daß dieses Verfahren bei vielen Wör- 
tern zu einer größeren Zahl heteromorpher Segmentierungen 
der Gesamtkette führen würde. 


Das Mittel, mit dem sich sowohl] eine beachtliche 
Rationalisierung des Verfahrens wie auch eine starke Ein- 
schränkung heteromorpher Segmentierungen erreichen läßt, 
besteht in dem Einsatz von Elementkombinationslisten. 

Der Algorithmus ist im Prinzip der gleiche, jedoch greift 
er bei der Außenkettensegmentierung zur Identifizierung 
von Folgeelementen nicht mehr auf die Listen, die alle 
Elemente einer Morphklasse umfassen, zu, sondern auf Kom- 
binationslisten, die nur noch die realiter mit einem vor- 
ausgehenden Elemente kombinierbaren Folgeelement enthalen. 
U.zw. werden dazu Listen eingesetzt, die sowohl nach der 
Distribution 2. Ordnung - für Präfixe (PKL) und für Deri- 
vationssuffixe (DSKL) - wie auch nach der Distribution 3. 
Ordnung - für den Übergang von Inklinations- auf Deriva- 
tionssuffixe (ISKL) - erstellt worden sind (siehe im üb- 
rigen Kap. 8).Die Listen, die alle Elemente einer Morph- 
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klasse umfassen (PGL, ISL, DSL), werden der logischen Li- 
stenstruktur nach nur noch zur Identifizierung des ersten 
bzw. letzten Elements einer zu analysierenden Kette benö- 
tigt, wobei auch nur auf denjenigen Teil der jeweiligen 
Liste zugegriffen wird, dessen Elemente das gleiche erste 
bzw. letzte Zeichen haben wie die zu segmentierende Kette. 


Durch den Einsatz der Kombinationslisten fallen aus 
den linken AuBenketten unseres Beispiels predosuditel'!nyj 
die Präfixkombinationen pre-do, predo-s, predo-su, do-su, 
o-su und s-u weg, aus den rechten AuBenketten die Suffix- 
kombinationen tel'-n, t-el', it-el' und e-l’, so daß das 
Graphenschema sich zu folgendem Bild vereinfacht: 


potentielle LK | kleinste potentielle RK 
Stufen : potentielle Stufen 
; Innenkette 


pred — 0 — 5 


(preda) 


Die kleinsten potentiellen Innenketten in diesem 
Beispiel liefern noch keinen positiven Vergleich mit den 
Elementen der Kernliste. Von den bei dem Abbau der AuBen- 
ketten entstehenden erweiterten Innenketten liefert als 
einzige die Innenkette -sud- (= potentielles Präfix -s- 

* potentielle Innenkette -ud-) einen positiven Vergleich. 


25 Der physikalischen Struktur nach wird jedoch immer auf die- 
se Listen zugegriffen. Folgeelemente werden in diesen Listen durch 
die indirekte Adressierung über die Kombinationslisten gefunden, die 
folglich nur die Adressen der Folgeelemente enthalten. (Siehe Ab- 
schnitt 5.2.1 und Kap. 8) 
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Diese ist damit als Wortkern identifiziert. Einzige auf 
die Innenkette -sud- zutreffende linke AuBenkette ist die 
Kette pred-o-. Ebenso verbindet sich mit -sud- auch nur 
eine rechte AuBenkette, nämlich -z-tel'n-yj; es resultiert 
folglich als einzige Segmentierung der Gesamtkette: 


pred-o-sud-i-tel'n-yj 


Eine formal mógliche heteromorphe Segmentierung 
predo-sud-i-tel'n-yj wird nicht generiert, da bereits bei 
der Segmentierung in die potentiellen linken AuBenketten 
die Kette predo- durch eine spezielle Routine (siehe Kap. 
5.2.3) ausgeschlossen wird. Mit dieser Routine, die durch 
Indizes gesteuert wird, die den Elementen der Prafixliste 
(PGL) zugeordnet sind, wird im Falle von predo geprüft, 
ob zwei Konsonanten folgen. Da das nicht gegeben ist, wird 
die AuBenkette predo- gar nicht erst eröffnet. 26 


Dadurch, daß sich durch den Einsatz der Kombina- 
tionslisten die Zahl der potentiellen Gesamtketten erheb- 
lich reduziert - in diesem Beispiel von 255 auf 30 -, 
verringert sich die Zahl der für die Segmentierung insge- 
samt durchzuführenden Maschineninstruktionen im gleichen 
Verhältnis, also etwa auf ein Zehntel. Ohne den Einsatz 


von Kombinationslisten hätte das Ergebnis hier aus 24 (!) 


heteromorphen Segmentierungen bestanden? /. 


Der folgende Computer-Output soll an Hand einiger Wörter, 
die formal heteromorphe Zeichengruppen enthalten, demonstrieren, 
daß dennoch richtige Segmentierungen generiert werden. 


26 Durch Ausnutzung der Kombinatorik wird auch RK 4 ausge- 
schlossen, da eine auf ''yj'' endende Kette nur das Inklinationssuf- 
fix -yj, aber nicht das Inklinationssuffix -j enthalten kann (siehe 
Kap. 5.2.1). 


er Je 12 Segmentierungen mit dem Kern -sud- und dem Kern -dit-, 
jeweils mit verschiedenen Kombinationen von Präfix- und Suffixketten 
(siehe Graphenschema (1), S. 48). 
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VOSPROIZVOOSTVENNYJ ` VOD VOS PRO IZ von STV ENN YJ 
VOSXITITS XIT vos XIT I T5 
VOSTPEC OSTR V OSTR EC 

VOSK VOSK νο5κ 

VODVORQTS DVOR νο Όνοη Q T5 

VODA voo voo A 

OSTRYJ OSTR OSTR YJ 

oss os os 5 

OSVOPODITS SVOB50 9 5νο800 I T5 
OSVE DOMITELSNICA VEO OS VED OM I TELS NIC A 
VO ZMEHTATS MEHT VOZ  MEHT 4 TS 

VOZKA voz VOZ KA 

I ZVOZNIMESTVO voz I2 VOZ N IH ESTV O 
OBOZNAMATS ZNA 060 ZNA HA T5 
OBOZNIK voz 08 OZ N IK 
OBOBBESTVLQT5SQ 088 08 088 ESTVL Q T5 SQ 
POOPLYTS PLY POD PLY "e 

PODOITS 00 PO DO I T5 

PODOVIK POO POO OV IK 

DOITS 00 po I T5 

DOVERXU VERX 00 VERX U 

POL97KO POL POL 97 KO 
POLETETS LET PO LET E T5 
POLGOOA GOD POL GOD A 
POLIMORFIZM MORF POLI MORF IZM 
POLUPROVOONIKOVYJ νου T POLU PRO Νου N IK OV YJ 
PREOOKTQBRSSKIJ ora s PRED OKTQBRS SK IJ 
NAPREOKI PRED NA PREO KI 
PRERVATS RV PRE RV... mE - 9783954791354 
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RA2VYT5SQ 
VYRAZITELSNOSTS 
ZAVYTS 
VOZVYSIT5SQ 
VYKLIKATS 
RASFORMIRIVYVATS 
NADUVATS 
VYRVATS 

IZVAQTS 
OSVFDDMITTLSNYJ 
PPOXODOM 
INTEPVEOOMOSTI 
ΡΟΜΙΚ 


DOK ISTITS 


vY 
RAZ 
VY 
vYS 
KLIK 


FORM 


56 - 


PP0 


INTER 


09 


νυ T5 SQ 
RAZ I TELS N OST 5 
ve re 

VYS I T5 SQ 
KLIK A T5 


FORM IR OV YVA T5 


DU VA T5 
RV A TS 
VA Q T5 


VEO OM I TELS N YJ 
xOD OM 
VED OM OST I 


DOM IK 


MOST I T5 
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5.2 Spezielle Algorithmen des Segmentierungsverfahrens 
5.2.1 Segmentierung von Pršfix- und Suffixketten 


Das Wesentliche hierzu ist in der Darstellung der 
AuBenketten-Segmentierung gesagt worden; hier sollen ei- 
nige Erläuterungen und Ergänzungen folgen. 


Die Identifizierung von potentiellen Außenketten- 
elementen wird durch folgendes Vorgehen erreicht: 


Den Elementen der Listen PGL, ISL und DSL sind 
folgende Informationen zugeordnet: 28 


1. Anzahl der Zeichen des Elements 


2. Anfangsadresse der dem Element logisch zu- 
geordneten Kombinationsliste 


3. Anzahl der Elemente der Kombinationsliste 


Die Kombinationslisten, die physikalisch nur aus 
den relativen Adressen der kombinierbaren Morphlisten- 
elemente bestehen, sind für jede Morphklasse zu einer 
einzigen fortlaufenden Liste zusammengefaßt. Die Elemen- 
te der Morphlisten sind nach dem ersten Zeichen (bei Prä- 
fixen) bzw. dem letzten Zeichen (bei Derivationssuffixen) 
alphabetisch geordnet?) 


Zur Identifizierung der potentiellen ersten Ele- 
mente einer AuBenkette wird, wie bereits erwähnt, derje- 
nige Teil der Liste herangezogen, deren Elemente das 
gleiche erste bzw. letzte Zeichen haben wie die zu seg- 
mentierende Kette. Alle Elemente dieses Listenteils wer- 
den nacheinander mit der front- bzw. endständigen Zei- 


28 Uber die Form der Zuordnung siehe Kap. 8. 


29 Die alphabetische Ordnung der Derivationssuffixe nach 
dem letzten Zeichen wird in dem Assemblerprogramm Uber eine beson- 
dere Adressenliste hergestellt. 
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chenfolge der zu analysierenden Kette verglichen, indem 
jeweils nach der Information Anzahl der Zeichen des 
Elements' eine entsprechende Anzahl Zeichen von der Ket- 
te abgetrennt werden. 


Sind alle potentiellen ersten Elemente identifi- 
ziert und gespeichert, so geht der Algorithmus zu dem 
Listenelement, das den ersten positiven Vergleich gelie- 
fert hat, zurück und greift vermittels der dort vorgefun- 
denen Information 'Anfangsadresse der dem Element logisch 
zugeordneten Kombinationsliste' und der wiederum in der 
Kombinationsliste vorgefundenen Adresse auf das erste mit 
dem zuerst identifizierten Element kombinierbare Element 
zu. Die Vergleichsprozedur bleibt die gleiche, ebenso die 
Liste??, nur daB jetzt die Folge der zum Vergleich heran- 
zuziehenden Listenelemente durch eine indirekte Adressie- 
rung über die Kombinationsliste bestimmt wird - physika- 
lisch gesehen wird also beim Vergleich in der jeweiligen 
Morphliste hin- und hergesprungen. Dieser Prozess ite- 
riert, bis der über die Information 'Anzahl der Elemente 
der Kombinationsliste' gesetzte Grenzwert überschritten 
ist. 


Der GesamtprozeB verläuft entsprechend dem Graphen- 
schema (1), Abschnitt 5.1.4.1, stufenweise, d.h. nachdem 
zuerst die potentiellen ersten Elemente identifiziert wor- 
den sind, werden alle auf diese Elemente folgenden poten- 
tiellen zweiten Elemente identifiziert usw. 


Das Zusammenspiel der Listen soll an dem Beispiel 
neproizvoi'nyj ("unwillkürlich"), bei dem in allen Stufen 


der Präfixkette nur ein potentielles Element auftritt, 
mit einem vereinfachten Schema demonstriert werden: 


30 Zwischen den Listen ISL und OSL wird nur logisch unter- 
schieden, physikalisch bilden beide Listen zusammen eine Liste; im 
Assemblerprogramm hat diese die symbolische Adresse SL. 
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(bes), (bes), ...(pri), (pro), (ras), proisvol'nyj 


(voz), (do), (sa), (is), (izo), (po), «+. 


— 


ee = ------------------ῃ 
(bez). (za), (na), (ne), (ob), (raz), (u). ne-pro-is- 


Obgleich “ν” und "vo" in der letzten Restketts formal 
noch weitere Prüfixe sein können, werden sie nicht ale 
solche identifiziert, da sie nicht in der Kombinstions- 
liste von -iz- auftreten. 


Die Segmentierung der Suffixkette beginnt je nach 
dem Bearbeitungsstatus der zu analysierenden Kette auf 
unterschiedliche Weise. Wird die vollständige Kette eines 
Wortes auf das Zutreffen der Struktur Q getestet (siehe 
Kap. 5.1.2) oder handelt es sich um eine endständige Teil- 
kette oder um eine Teilkette vor einem Konnektor "-", so 
wird grundsätzlich mit dem Auftreten von Inklinationssuf- 
fixen gerechnet und demgemäß die Liste ISL zum Vergleich 
herangezogen. Führt kein Element der Liste zu einem posi- 
tiven Vergleich, so setzt der Algorithmus ein -Suffix 
an. Diesem f-Suffix ist ebenso wie jedem anderen Inklina- 
tionssuffix eine Kombinationsliste zugeordnet, die die 
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Adressen der ihm potentiell vorausgehenden Derivations- 
suffixe enthalt. 


Ketten von Inklinationssuffixen treten nur in 
Form von Tupeln auf, die aus einem verbalen bzw. parti- 
zipialen Flexionssuffix, gefolgt von einem Vertreter des 
Reflexivmorphems, bestehen. Diese Tupel bilden jeweils 
ein geschlossenes Element in der Liste ISL. Die Liste ISL 
hat eine bestimmte logische Struktur, die von einem spe- 
ziellen Algorithmus?! abhängig ist, durch den Heteromor- 
phie in der 1. Stufe der Suffixkette bereits bei der Seg- 
mentierung in potentielle Ketten nahezu vollständig aus- 
geschlossen wird. Dem liegen Untersuchungen zugrunde, aus 
denen folgt: endet eine Kette auf "t'sja", "tig'", "'gjq", 
"ijeja", so liegen die Tupel -t'-sja, -ti-s', -'-sja", 
-tj-sja, nicht aber ein Inklinationssuffix -ja oder -' 
vor; endet eine Kette auf "yj", so liegt das Inklinations- 
suffix -yj vor, nicht aber ein Inklinationssuffix -j, 
usw.. In der zweiten Stufe der Suffixkettensegmentierung 
greift der Algorithmus vermittels der Kombinationsliste 
ISKL bereits auf die Liste der Derivationssuffixe (DSL) 
zu. 


Handelt es sich um eine Teilkette vor einem Konnek- 
tor -o-, -e- - konkret wird vor der Segmentierung einer 
Kette geprüft, ob die Zeichen "-" oder "Blank" folgen, 
was hier also nicht der Fall ist - so wird bei der Segmen- 
tierung der rechten AuBenkette nicht mit dem Auftreten von 
Inklinationssuffixen gerechnet und folglich gleich in der 
1. Stufe die Derivationssuffixliste (DSL) zum Vergleich 
herangezogen. Der ProzeB beginnt, wie eingangs beschrie- 
ben, damit, daß diejenigen Elemente mit der endständigen 
Zeichenfolge der zu segmentierenden Kette verglichen wer- 
den, die das gleiche letzte Zeichen haben wie die zu seg- 
mentierende Kette. In den 2. und folgenden Stufen wird 
dann die Segmentierung vermittels der Kombinationsliste 
DSKL fortgesetzt. 


Y. et e Vd 
3 Siehe im Assemblerprogramm (Anhang) unter "TSMACRO:!- 9783954791354 
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5.2.2 Speicherung potentieller AuBenketten 


Da die bei der AuBenkettensegmentierung identifi- 
zierten Elemente nicht in der Reihenfolge anfallen, die 
sie in der segmentierten Kette haben, sondern stufenwei- 
se erst alle potentiellen ersten, dann die potentiellen 
zweiten Elemente usw. identifiziert werden, ist ein be- 
sonderer Speicheralgorithmus erforderlich, der das Mieder- 
auffinden von Elementen, die zu einer potentiellen Kette 
gehóren, ermóglicht. 


Die von dem Algorithmus belegten Speicherfelder 
sind wie folgt zu charakterisieren: 


PRAEHIN u. SUFFHIN sind Speicherfelder, in denen identifi- 
zierte Elemente in der Reihenfolge, in der sie bei 
der Segmentierung anfallen, gespeichert werden. (Ge- 
speichert werden die relativen Adressen, die die Ele- 
mente in den Listen PGL bzw. SL haben.) 


Mod. | (von dem Assemblerprogramm in den Register-File 578 
für PRAEHIN und 538 für SUFFHIN gespeichert) ist 
derjenige Adressenmodifikator für das Speicherfeld 
PRAEHIN bzw. SUFFHIN, mit dem die relative Adres- 
se für das nächste zu speichernde Element indiziert 
wird. 


Mod. 2 (Register-File 458 für PRAEHIN und 528 für SUFFHIN) 
ist derjenige Adressenmodifikator für das Feld 
PRAEHIN bzw. SUFFHIN, mit dem die Adresse eines Ele- 
ments indiziert wird, von dem aus mittels Kombinations- 
liste nach Folgeelementen gesucht wird. 


PRAEHER u. SUFFHER sind Speicherfelder, in denen für jedes 
identifizierte Element der Adressenmodifikator gespei- 
chert wird, mit dem die PRAEHIN- bzw. SUFFHIN-Adres- 
se des in der potentiellen Kette vorausgehenden Ele- 
ments indiziert wird. 


LAEPRKEC u. LAESUKEC sind Speicherfelder, in denen für jedes 
identifizierte Element die mit ihm erreichte Länge 
der potentiellen Außenkette gespeichert wird. 


Der in dem Algorithmus zur Außenkettensegmentie- 
rung integrierte Speicheralgorithmus hat den im nachfol- 
genden Diagramm dargestellten Aufbau: 
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Modl=-] 
Mod2= O 


erstes/nächstes 

Element der l.Stufe 
Über die Liste 

SL identifizieren 


identifiziertes 
Element unter der 
Adresse 
SUFFHIN + Mod 1 
Speichern 


Endmarke -1 
unter der Adresse 
SUFPHER + Mod 1 
speichern 


Lunge des Elements 
unter der Adresse 

LAESUKEC * Mod 1 
speichern 


zum Vergleich 


abgearbeitet? 


herangezogene Listéj 
SL 


- 62 - 


(1) Plussdiagramm des Algorithmus sur  Stufen- 
weisen Segmentierung urd Speicherung po- 
tentieller Aussenketten. 

(Statt SUPFFHIN, SUFFHER, LAESUKEC und SL 
ist bei der Segmentierung von Prüfixkettsn 


entsprechend PRAEHIN,  PRAEHER, LAEPRKEC 
und PGL einzusetzen.) 


von dem unter 
SUFFHIN + Mod 2 ge- 
speicherten Element 
ausgehend über die 
Kombinationsliste 

Element der nächsten 
Stufe identifizieren 


identifiziertes 


Element unter der 
Adresse 
SUFFHIN + Mod 1 


speichern 


Wert von Mod 2 
unter der Adresse 
SUFFIIER + Mod 1 
speichern 


Länge der potenti- 
ellen Aussenkette 
berechnen und unter 
der Adresse 
LAESUKEC + Mod 1 
speichern, d.h. 


Länge des identifi- 
zierten Elements 


Kombinationsliste 
abgearbeitet ? 


ja 


Mod2= 
Mod2+1 


ja 
2 rich Wenze PRAT ENG DA 
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Die Ausführung dieses Algorithmus mit dem Wort 
predoeuditel'nyj (siehe dazu auch das Graphenschema auf 
S. 53) führt zu folgender Speicherbelegung: 


Speicher fOr Speicher für 
potentielle Prüf ixketten potentielle Suffixketten 


IK mit 
positivem 
Vergleich 


Auf der Grundlage dieses Speicherschemas wird die 
auf die Struktur Q zutreffende Segmentierung wie folgt 
gefunden: 


Die potentiellen Innenketten ergeben sich aus den 
Längendifferenzen (die in LAEPRKEC jeweils angegebene 
Zeichenanzahl wird von links, die in LAESUKEC jeweils an- 
gegebene Zeichenanzahl wird von rechts abgezogen). Den 
einzigen positiven Vergleich mit den Elementen der Kern- 
liste liefert in unserem Beispiel die Innenkette -sud-, 
die sich aus den Werten von LAEPRKEC (3) und LAESUKEC (5) 
errechnet. 


Die Präfixkette wird nun folgendermaßen rekonstru- 
iert: Das dem Kern vorausgehende Präfix steht in der glei- 
chen Speicherzeile wie der zutreffende Wert von LAEPRKEC, 
also in der Speicherzeile PRAEHIN (3). Das diesem voraus- 
gehende Präfix wird ebenfalls in der gleichen Speicherzei- 
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Te, also in PRAEHER (3) indiziert; der Wert von PRAEHER 
(3) ist 2, folglich befindet sich das vorausgehende Prä- 
fix in PRAEHIN (2). Ein möglicherweise diesem wiederum 
vorausgehendes Präfix würde nun in PRAEHER (2) indiziert 
werden; dort steht jedoch die Endmarke -1, die Präfix- 
kette ist also komplett. 


Entsprechend beginnt der Aufbau der Suffixkette 
mit dem unter SUFFHIN (5) gespeicherten, auf den Kern 
folgenden Element und setzt sich - im Schema durch Pfei- 
le gekennzeichnet - fort, bis auch hier die Endmarke -1 
erreicht ist. Die Segmentierung ist 


pred-o-sud-i-teli'n-yj 


Eventuelle heteromorphe Segmentierungen der Gesamt- 
kette würden sich - bei positiv ausfallenden Vergleichen 
weiterer Innenketten mit der Kernliste - auf die gleiche 
Weise aus dem Schema ergeben. Der Algorithmus erlaubt die 
Speicherung beliebig vieler beliebig langer potentieller 
Ketten. 


Friedrich Wenzel - 9783954791354 
Downloaded from PubFactory at 01/10/2019 06:09:32AM 
via free access 


00047409 


=: 65. < 


5.2.3 Prüfung auf unzulšssige Zeichenfolgen an der 
Grenze potentielle Pršfixkette - Wortkern 


Um bei der Segmentierung der linken AuBenkette ein 
unnótiges Abtrennen von Zeichen, die zum Bestand des Wort- 
kerns gehóren, zu vermeiden und - was wesentlich ist - um 
heteromorphe Segmentierungsresultate nach Móglichkeit aus- 
zuschlieBen, enthält der Segmentierungsalgorithmus eine 
Routine, mit der vor der Speicherung eines potentiellen 
Präfixes die Restkette auf unzulässige initiale Zeichen 
geprüft wird. Unter "unzulässige initiale Zeichen" sind 
solche Zeichen bzw. Zeichenfolgen zu verstehen, deren Auf- 
treten hinter der Morphgrenze von bestimmten Präfixen aus- 
geschlossen ist. (Sprachwissenschaftlich sind die Verhält- 
nisse in der Umkehrung der Aussage zu deuten: Ein Morph 
mit bestimmten initialen Zeichen determiniert bei der Prä- 
figierung die Auswahl eines bestimmten Präfixallomorphs.) 


Da die mógliche Abfolge von Elementen innerhalb 
der Präfixkette bereits durch die Kombinationsliste gere- 
gelt wird, ist die Prüfung nur für die Grenze Präfixket- 
te - Kern relevant. Durch die Prüfung auf unzulässige 
Folgezeichen kann ein gerade stattfindender Segmentie- 
rungsschritt nur falsifiziert werden. Werden keine unzu- 
lässigen Zeichen gefunden, so wird die abgetrennte Zei- 
chengruppe nach wie vor als potentielles Präfix gespei- 
chert, und die Verifizierung bzw. Falsifizierung des Seg- 
mentierungsschrittes erfolgt erst bei dem Vergleich der 
potentiellen Innenketten mit den Elementen der Kernliste. 
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Durch Folgezeichen determiniert sind Allomorphe 


von Präfixen folgender Typen: 


Ein Segmentierungsschritt ist falsifiziert, wenn 
bei der Abtrennung eines Elements der Gruppe 


ein Zeichen "e", "i", "ju", "ja" folgt; 
nicht zwei beliebige Konsonanten folgen; 

D ein beliebiger Vokal folgt ("j" zählt 
als Konsonant) = nicht ein beliebiger Konso- 
nant folgt. 


Die Prüfung kann bei Elementen der Gruppe C unterbleiben, 
da ein zu dieser Gruppe gehörendes Element immer ein Prä- 
fix ist. Ebenfalls unterbleibt die Prüfung bei den Ele- 
menten der Gruppe 3 B (vo, so), da bei diesen Elementen 
keine in allen Fallen gültige Regel für Folgezeichen auf- 
gestellt werden kann. 


Auf welche Zeichen bzw. Zeichenfolgen geprüft wird, 
wird durch Steuerzeichen geregelt, die zusammen mit den 
Präfixen der Gruppe A, B und D in der Liste PGL gespei- 
chert sind. Die Prüfung wird mit Hilfe zweier 64-Charac- 
ter-Tabellen vorgenommen, in denen jeweils unter der Adres- 
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se, die dem Oktalwert des Zeichens entspricht, auf das 
geprüft wird, ein Bit gesetzt ist. D.h., in der Tabelle 
(VOKLC) für die Zeichen "e", "£", "ju", "ja" ist je- 
weils ein Bit unter den Character-Adressen 110 (="ju”), 
258 (s"e"), 3le (="i") und 50 (="ja”) gesetzt; in der 
Tabelle (KONSLC) für Konsonanten ist jeweils ein Bit un- 
ter den Charakter-Adressen 7a (="8"), Be (="sc"), 

226 (="b"), 23e (="c"), 248 (="d") usw. gesetzt. Durch 
diese Form der Tabellen kann die Prüfung, ob eine be- 
stimmte Kategorie von Zeichen vorliegt oder nicht, in 
einem Schritt durchgeführt werden, indem das Zeichen, das 
geprüft wird, zur Adressierung der Tabelle verwendet wird 
und dabei nur getestet zu werden braucht, ob ein Bit ge- 
setzt ist oder nicht. Ein iterierendes Durchsuchen der 
Tabelle entfällt bei dieser Methode. 


Durch den Einsatz dieses Algorithmus' kann ver- 
mieden werden, daß z.B. 


neben der richtigen die falsche hetero- 
Segmentierung morphe Segmentierung: 
na-del'-n-yj nad-el'-n-yj 
vosem-' vos-em-' 
o-top-i-tel'n-yj oto-pi-tel'n-yj 
po-doro2-n-ik podo-ro3-n-ik 
na-do-ed-liv-ost-' nado-ed-Lliv-ost-' 
entsteht. 
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5.2.4 Umwandlung von Kernallomorphen (phonologische 
Routinen") 


Von zwei oder mehreren Allomorphen eines Kernmor- 
phems, die sich durch Konsonantenwechsel bzw. Konsonanten- 
ausfall voneinander unterscheiden und die in regelhafter 
Abhängigkeit von dem jeweils folgenden bzw. vorausgehen- 
den Element in der einen oder anderen Zeichengestalt auf- 
treten, wird nur ein Allomorph (u. zw. das im Sinne der 
historischen Phonologie primäre) in die Kernliste aufge- 


nommen?? . 


Unterscheidet sich die aktuelle Form des Kernes 
einer zu segmentierenden Kette von der Form, in der er 
in der Kernliste vertreten ist, so wird durch spezielle 
Algorithmen ("phonologische Routinen") der aktuelle Kern 
in den Listenkern umgewandelt. Da der aktuelle Kern nach 
der Segmentierung der Außenketten zunächst noch nicht be- 
kannt ist, muB die Umwandlung an den potentiellen Innen- 
ketten (= potentiellen Kernen) durchgeführt werden. Als 
aktueller Kern erweist sich die Innenkette, die nach der 
Umwandlung einen positiven Vergleich mit den Elementen 
der Kernliste liefert. Der Zweck dieser Algorithmen ist 
zum einen, den Speicherbedarf fiir die Kernliste zu redu- 
zieren und zum anderen, verschiedene Allomorphe eines 
Kernmorphems auf eine Standardform beziehen zu kónnen. 


Austausch oder Löschung von Zeichen werden von 
zwei Parametern gesteuert. Den ersten Parameter stellen 
die Elemente, die dem Kern folgen. Jedem Element der 


32 Allomorphe von Kernmorphemen, die sich durch Ablaut, 
Liquidametathese bzw. Polnoglasie und sog. flüchtiges o/e vonein- 
ander unterscheiden oder die als orthographische Varianten anzuse- 
hen sind, werden als gesonderte Kerne in die Liste aufgenommen. 
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Suffixlisten ISL und DSL, vor dem ein Graphemwechsel 22 
vorliegen kann, ist ein Steuerzeichen zugeordnet (im As- 
semblerprogramm in der parallelen Liste?" SKERNC enthal- 
ten), durch das der Einsprung in eine bestimmte phonolo- ` 
gische Routine oder in eine bestimmte Folge von phonolo- 
gischen Routinen geregelt wird. Mit dem Einsprung deter- 
miniert der erste Parameter die Liste von Zeichen bzw. 
Zeichenfolgen, auf die der Algorithmus den potentiellen 
Kern zu untersuchen hat. Die jeweils identifizierten 
Zeichen(folgen) stellen den zweiten Parameter. Dieser 
entscheidet über Austausch und Lóschung von Zeichen. Im 
Falle des Austauschs determiniert der zweite Parameter 
zugleich eine weitere Liste von Zeichen(folgen), gegen 
die die im potentiellen Kern vorgefundenen Zeichen aus- 
zutauschen sind. Im Falle der Löschung wird lediglich 
das letzte Zeichen des potentiellen Kerns gelóscht. 


Im Beispiel: Liegt als vorderstes Element einer 
rechten potentiellen AuBenkette ein Suffix {-ent-, -enn-, 
-iva- ...) (1.Parameter) vor, so wird über das diesem 
Element zugeordnete Steuerzeichen 4 in die Routine PHON 4 
gesprungen. Von dieser Routine wird die Liste (nen, "a", 
"a", "žd", "Ea", "bi", "vi", ...) herangezogen und das 
Ende des potentiellen Kernes auf die in dieser Liste ent- 
haltenen Zeichen(folgen) untersucht. Wird nun z.B. das 
Zeichen "z" identifiziert (2. Parameter), so zieht die 
Routine die Liste "g", "d", "z" heran und tauscht das Zei- 
chen "Z" nacheinander gegen die Zeichen dieser Liste aus, 
wobei nach jedem Zeichenaustausch der geänderte potentiel- 
le Kern erneut mit den Elementen der Kernliste zu verglei- 


33 "Graphemwechsel'! wird hier als allgemeiner Ausdruck für 
die von den Algorithmen erfaßten phonologischen Prozesse verwen- 
det. 


A Eine parallele Liste enthält die zugeordnete Information 
unter derselben relativen Adresse. 
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chen ist. So wird z.B. der aktuelle Kern -bliz- in der 
Kette pri-bliz-enn-ost-' von dem Algorithmus in die For- 
men -blig-, -blid-, -bliz- umgewandelt; die dritte Form 
(-bliz-) liefert den positiven Vergleich mit den Elemen- 
ten der Kernliste2?. Wird in der Routine PHON 4 z.B. die 
Zeichenfolge "vi" identifiziert (2. Parameter), so werden 
keine Zeichen ausgetauscht, sondern das letzte Zeichen 
(1-Epenthetikum) wird gelöscht. 


Die Ergänzung von Zeichen wird nur von einem Para- 
meter gesteuert. Liegt ein Präfix -ob- oder ein Suffix 
(-nu-, -n-) vor, so entfällt die Identifizierung charak- 
teristischer Zeichen im potentiellen Kern. Der erste Pa- 
rameter übernimmt die Funktion des zweiten; sein Wert 
entscheidet bereits, daß der potentielle Kern entweder 
vorn oder hinten um ein Zeichen zu erweitern ist und 
welche Liste von Zeichen dazu heranzuziehen ist. 


Einzelheiten der Algorithmen sind dem Flußdia- 
gramm im Anhang zu entnehmen. Die dort unter "Kernände- 
rung" angegebenen Zahlen sind die relativen Speicher- 
wortadressen folgender Tabelle (PHONTAB), die für den 
Graphemwechsel im Kernauslaut herangezogen wird: 


35 Dieser rekonstruierte Kern wird von dem Assemblerprogramm 
ebenfalls ausgegeben; er dient zur Sortierung der Segmentierungs- 
ergebnisse nach Wortfamilien und stellt für den noch zu entwickeln- 
den Synthese-Algorithmus eine Formalisierung des Morphems dar. 
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zgi = 


PHONTAB 


= aa "co ol’ οἱ) ko οἱ 
"oo co uo αἱ] so οἱ 
"o SCH 
mmn 


oot 
oil” 


aem um 


Jedes Speicherwort der Tabelle enthält folgende Informa- 
tionen. 


Character 1 und 2: Zeichen, die am Kernende ein- 
gesetzt werden; 
Character 4: Steuerzeichen mit den Werten: 


0 = Character 2 wird an den Kern an- 


gehängt; 

1 = das letzte Zeichen des Kern wird 
ersetzt; 

2 = die letzten beiden Zeichen des 


Kerns werden ersetzt. 


Ist das ganze Speicherwort mit Nullen besetzt, so 
wird kein Graphemwechsel vorgenommen. Jede von dem 
zweiten Parameter determinierte Liste (= Teilstück 
von PHONTAB) enthält ein solches Element, wodurch 
erreicht wird, daß Kerne, die im zeitgenössischen 
Wortschatz ausschließlich in sekundärer Gestalt auf- 
treten, wie z.B. -svez-, unverändert den Vergleich 
mit der Kernliste durchlaufen. 
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Der nachfolgende, mit dem Segmentierungsverfahren 
hergestellte Original-Output zeigt einen Ausschnitt der 
Moglichkeiten, mit Hilfe der phonologischen Routinen ei- 
nen Listenkern aus dem sich von ihm unterscheidenen aktu- 
ellen Kern zu rekonstruieren. Der rekonstruierte Kern ist 
in der zweiten Spalte ausgedruckt. 
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PEREDVIGATS OVIG PERE DVIG A T5 

PERE OVINUTYJ 0VIG PERE OVI NU T YJ 
PERE DVIMKA DVIG PERE DIN KA 
OTXODNIMESTVO X00 OT X00 N IH ESTV O 
POXOMIJ * PO XOM IJ 

BATRAK BATRAK BATRAK 
BATRAHESKIJ BATRAK BATRAH ESK IJ 
BATRACKIJ BATRAK RATRAC K IJ 
VOSKLIKNUTS KLIK VOS KLIK NU T5 
VOSKLICATS KLIK VOS KLIC A T5 
POVOLOK7IJ VOLOK ep νοιοκ 7 IJ 
POVOLOHS VOLOK PO νοιοη 5 
SBEPEGATS BEREG S BEREG A T5 
SBEREHS BEREG S BEREH 5 

νοζουχ ουχ voz oux 
VOCDU7EVLQTS5SQ DUX VOO dor EVL Q T5 SQ 
VOZVYSITSSQ νυς voz VYS I T5 SQ 
PPEVOZVY7AT5SQ νυς PRE VOZ VY7 ATS SQ 
VOSK VOSK VOSK 

PODVOSITS VOSK POO vos 1 T5 
OTOMSTITS MST ᾽ OTO MST I T5 
OTOMBATS MST OTO M8 A TS 
VOZMUTITELSNICA MUT VOZ MUT I TELS N IC A 
ZASMUBATSSQ MUT ZA S MUS ATS SQ 
NEVO ZNAGRADIHY J GRAD NE VOZ NA GRAD IM YJ 
VOZNAGRAWDATS GRAD VOZ NA GRAND A T5 
GVOZDILS8IK GVOZD GV020 1 L5 8IK 
PRIGVOWDATS GVOZD PRI GVOND A TS 
ZAPLUDQBIU BLUD l ZA BLUD 08 IJ 


BLUWOATSSQ BLUD BLUMD A T5 SQ 
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UBL9DOHNYJ 
NABLOSTI 
CVETISTYJ 
DOCVESTI 
REFRAKTOR 
FRAKCIONNYJ 
KARAULITS 
KARAULSNYJ 
OTOPITS 
OTOPLENIE 
VOZKA 
ΟΒΟΖΝΥΟ 
VOZVRATNOSTS 


OBRAPENIE 


BL9D 
BL9D 
CVET 
CVET 
FRAKT 
FRAKT 
KARAUL 
KARAUL 
TOP 
TOP 
voz 
voz 
VRAT 


VRAT 


74 - 


DO 


RE 


voz 


BL90 OH N YJ 
BL9S TI 

CVET IST YJ 
CVES TI 
FRAKT OR 
FRAKC I ONN YJ 
KARAUL I T5 
KARAULS N YJ 
TOP 1 T5 
TOPL ENIE 
VOZ KA 

07 N YJ 

VRAT N OST 5 


RA8 ENI E 
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5.2.5 Rationelle Identifizierung von Elementen in 
langen Listen (Kern/Ganzwort-Such-Routine) 


für den Vergleich potentieller Innenketten mit den 
Elementen der Kernliste wird ein modifiziertes binäres 
Suchverfahren eingesetzt. Die Elemente der Kernliste sind 
nach der Anzahl der Speicherwörter, die sie einnehmen, 
sortiert. Der Vergleich wird mit der Subliste (KL 1 bis 
KL 4 für Kerne k, einkerniger Wörter bzw. NKL 1 bis NKL 4 
für Kerne 351 mehrkerniger Wórter) durchgeführt, deren 
Elemente die gleiche Anzahl Speicherwörter einnehmen wie 
die in Vergleich stehende potentielle Innenkette. Inner- 
halb einer Subliste sind die Elemente nach steigendem 
Zahlenwert geordnet. 


Das binäre Suchverfahren wird auf das erste Spei- 
cherwort der Elemente einer jeweiligen Liste angewendet 
- bei den Listen, deren Elemente nur ein Speicherwort aus- 
füllen (KL 1 und NKL 1), wird also ausschlieBlich mit dem 
bináren Verfahren gearbeitet. Für den Vergleich wird zu- 
erst das mittlere Element der Liste adressiert. Der Ver- 
gleich ergibt, ob die Zeichenkette, nach der gesucht wird, 
größer, kleiner oder gleich ist in bezug auf das zum Ver- 
gleich herangezogene Listenelement (die Aussage "gleich" 
trifft dabei nur auf das erste Speicherwort der Zeichen- 
kette zu). Bei dem Ergebnis "größer" oder "kleiner" wird 
in der entsprechenden Hälfte der Liste weitergesucht, in- 
dem hier wieder das mittlere Element adressiert wird. Lie- 
fert dieses wieder das Ergebnis "größer" oder "kleiner", 
so ist daraufhin bekannt, welches Viertel der Liste zur 
weiteren Suche auszuwählen ist. In diesem wird wieder das 
mittlere Element zum Vergleich herangezogen, usw. Mit 
diesem Vorgehen ist die Vergleichsprozedur bei den Listen 
KL 1 und NKL 1 nach maximal logax Schritten (x = Anzahl 
der Listenelemente) abgeschlossen. 
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In den übrigen Listen wird nach einem positiven 
Ausgang des Vergleichs mit dem ersten Speicherwort eines 
Listenelements die Suche durch den Vergleich der voll- 
stándigen Zeichenkette fortgesetzt. Auch die weitere Su- 
che erfolgt nach dem Prinzip "größer", "kleiner", "gleich"; 
da jetzt jedoch das erste zum Stringvergleich herangezogene 
Element bereits in unmittelbarer Nähe des gesuchten Ele- 
ments liegt, wird nicht mehr nach dem binären, sondern nach 
dem linearen Verfahren vorgegangen. D.h., ist das Ergebnis 
des ersten Stringvergleichs: "gróBer", so wird darauf mit 
dem unmittelbar folgenden Element verglichen; ist das Er- 
gebnis: "kleiner", so wird darauf mit dem unmittelbar vor- 
ausgehenden Element verglichen. Sind weitere Vergleiche 
erforderlich, so wird in der gleichen Richtung elementwei- 
se in der Liste fortgeschritten, bis der Vergleich positiv 
ausfällt oder das Ergebnis von "größer" auf "kleiner" bzw. 
von "kleiner" auf "gróBer" wechselt (potentielle Innenket- 
te # Wortkern). 


Dieses gemischte Verfahren wird deshalb eingesetzt, 
weil der speicherwortweise Vergleich wesentlich schneller 
durchzuführen ist (2,625 usec. pro CPR-Befehl) als der 
Stringvergleich (10,7 usec + n-0,9 usec pro CMP-Befehl, 
wobei n die Anzahl der Zeichen bedeutet). 


Für die Suche in der Ganzwortliste wird das glei- 
che Verfahren verwendet. In dem Assemblerprogramm wird 
die Suchprozedur mit demselben Macro durchgeführt, wobei 
der Zugriff auf die unterschiedlichen Listen durch die 
Parameterwerte des Macros gesteuert wird. 
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6. BEHANDLUNG VON WÜRTERN, DIE NICHT DER ALLGEME INEN 
FORMALEN WORTSTRUKTUR ENTSPRECHEN 


Wórter, die nicht der dem Verfahren zugrundegeleg- 
ten allgemeinen formalen Wortstruktur entsprechen, sind 
mit dem Verfahren auch nicht segmentierbar. Und zwar sind 
dieses die relativ seltenen mehrkernigen Wórter ohne Kon- 
nektor, wie z.B. vattóas, krachmalsoderzascij, dninsiétkes, 
Da das Verfahren für die automatische Textverarbeitung 
konzipiert ist, werden diese Wórter in eine sog. Ganzwort- 
liste übernommen, die von dem Algorithmus durchsucht wird, 
bevor ein Wort an die Segmentierungsroutine übergeben wird. 
Eine parallel zu der Ganzwortliste eingerichtete Ausgabe- 
liste dient zur Ausgabe der den Elementen der Ganzwortliste 
zugeordneten Informationen; beide Listen zusammen stellen 
also ein herkómmliches Maschinenworterbuch dar. Bei dem ge- 
genwärtigen Stande enthält die Ausgabeliste von Hand vorge- 
nommene Segmentierungen. 


In der Ganzwortliste wurden ebenfalls aufgenommen: 
die wenigen mehrkernigen Wörter mit Konnektor -z- wie 
viskozimetr, gravirazvedka, ferner Worter mit nur aus ei- 
nem Zeichen bestehenden Kern, wie vognut', und Wörter mit 
sehr seltenen Suffixen bzw. Suffixkombinationen, wie 
abraziv, glazur', gnil'. Insgesamt enthält die Ganzwort- 
liste in der vorliegenden Fassung 1,8 % des bearbeiteten 
Wortschatzes. 


Eine Möglichkeit, mehrkernige Wörter mit dem Ver- 
fahren zu segmentieren, auch wenn sie keinen Konnektor 
enthalten, besteht darin, die formalen Teilketten 0121 


36 Im umgangs- und literatursprachlichen Wortschatz liegt der 


Anteil dieser Wórter unter 0,1 $, in dem von uns bearbeiteten chemi- 
schen Fachwortschatz bei etwa 1! 3. 
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als Präfix zu deklarieren und in die Präfixliste aufzu- 
nehmen. Von dieser Möglichkeit wurde bei den etwas häufi- 
ger auftretenden Teilketten präfixalen Charakters, wie 
dvuch-, Getyrech-, mezdu- Gebrauch gemacht. 
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7. Log:sche Struktur des Segmentierungsverfahrens 


Durch folgendes Diagramm soll der Zusammenhang zwiachen den in den vorsusgeh- 
enden Kapiteln beschriebenen Algorithmen veranschaulicht werden. 
(Die im Diagramm verwende- 
ten Pfeile dienen nicht sur 
Kennzeichnung algorithmi- 
( start ) scher Abläufe, sondern ver- 
weisen lediglich auf logisch 
zueanmmenhängende Teile des 
Verfahrens bzw. auf den Da- 
tenfluss.) 


Einlesen von Wörtern 


Vorbereitung der 
Segmentierung 


Abschliessen der 
Programmexekution 


Vergleich mit der 
Ganzwortliste 


(Ganzwort-Suche) 


Lu Í CO 
© 


—Seqmentierung _ 
formaler Ketten Q 


(Segnentierungs- 
routine) 


Segmentierung 
Aussenketten- komplexer Ketten 
segmentierung (Konnektorroutine) 


linke Aussenkette 
(Pr4fix-Routine) 


Prüfung auf unzu- Identifizieren und 
Ius ige Folgezeichen speichern poten- 
(Pruf rout ine) tieller Konnektoren 


rechte Aussenket te 
(Suffix-Rout ine) 


— ee, 
Speicherung poten- 
tieller Aussenketten in 


Teilketten 
Umwandlung von Kern- 


allomorphen 


(phonolog. Routinen) 
Speichern segmen- 


tierter Teilketten 


Vergleich mit der 
Kernliste 
(Kernsuche) 


Druckroutine 
für Segmentie en 
mehrkerniger Wörter 
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Kommentar zum Diagramm: 


Dieser Teil des Verfahrens dient zur Eréffnung von Ein- und 
Ausgabefiles, zum Einlesen von Daten, zur Vorbereitung der 

Ganzwort-Suche und Segmentierung (Bestimmung des Speicher- 

feldumfangs eines Wortes etc.) und zum AbschlieBen der Pro- 
grammexekution bei Erreichung der End-of-file-Marke. 


©) 


Wird ein Wort in der Ganzwortliste vorgefunden, so entfällt 
eine weitere Bearbeitung; es wird lediglich das Wort zusam- 
men mit den ihm in der Ausgabeliste zugeordneten Informati- 
onen ausgegeben. 


Ein Wort, das als Ganzes nicht als eine formale Kette Q seg- 
mentierbar ist, wird an die Konnektorroutine übergeben. 


Eine potentielle Teilkette wird an die Segmentierungsrouti- 
ne übergeben. 


ο ο ο © 


Eine segmentierte Teilkette oder die Meldung, daß die Teil- 
kette nicht als formale Kette Q segmentierbar ist, wird an 
die Konnektorroutine zurückgegeben. 


©) 


Nach Wah! (regelbar durch Parameter auf einer Steuerkarte) 
werden in der Ganzwortliste gefundene Wórter, Segementie- 
rungsergebnisse einkerniger Wórter, Segmentierungsergebnis- 
se mehrkerniger Wórter und Wórter, deren Segmentierung nicht 
gelingt - was in der Regel das Fehlen eines Elements in den 
Listen zur Ursache hat -, auf gesonderte Ausgabefiles ge- 
schrieben oder auch in gesonderten Listen ausgedruckt. 
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8. DIE IN DEM VERFAHREN EINGESETZTEN LISTEN UND IHRE 
STRUKTUR 


Von den im Segmentierungsverfahren eingesetzten 
Listen haben die Präfix- und Präfixkombinationslisten 
und die Suffix- und Suffixkombinationslisten die wichtig- 
ste Funktion. Diese Listen wurden im wesentlichen an Hand 
des 104.00 Wörter umfassenden “Russian Derivational Dictio- 
nary"37 erarbeitet, wobei allerdings eine größere Zahl von 
Korrekturen in bezug auf die Morphemgrenzen und damit in 
bezug auf die Dimensionierung der Morphe vorzunehmen war. 
Weitere Korrekturen und die Aufnahme einer Reihe weiterer 
Elemente und Kombinationen erfolgten bei dem Austesten 


38 Die Listen sind im Anhang dokumentiert??, 


des Verfahrens 
Die ebenfalls in den Anhang aufgenommenen Kernli- 
sten sind speziellerer Natur. Sie wurden auf der Grundlage 
des etwa 50.000 Wortstellen umfassenden Wörterbuches "Che- 
mie und chemische Technik"? erstellt, enthalten jedoch 
auch eine gróBere Zahl von Wortkernen, die im allgemeinen 
umgangs- und literatursprachlichen Wortschatz auftreten. 
Elemente, die ausschlieBlich in chemischen Stoffnamen 


vorkommen, wurden bisher nicht in die Listen aufgenommen. 


37 Worth, Dean S., Kozak, Andrew S., Johnson, Donald B., 
Russian Derivational Dictionary, New York 1970 


38 Die Qualität der Segmentierungsergebnisse hängt bei diesem 
Algorithmus fast ausschließlich von der Qualität der Listen ab. Es 
soll keineswegs der Anspruch erhoben werden, daß in dem gegenwárti- 
gen Entwicklungsstadium eine in allen Fallen zweifelsfreie Segmen- 
tierung geliefert wird, vielmehr ist eine weitere Korrektur der Li- 
sten erforderlich. 


33 Bei den im Anhang enthaltenen Listen handelt es sich um 
Klartextlisten, aus denen mit einem Programm die Listen in der für 
das Verfahren erforderlichen Form einschlie8lich der Listen SKERNC, 
SLAENGC und SVORANZ (s.u.) automatisch erstellt werden. 


40 
2(1967) 


Chemie und chemische Technik, Russisch - Deutsch, Berlin 
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Auf die Prafixliste (PGL) wird mittels Character- 
adressierung zugegriffen. Ein Element der Liste umfaBt 
12 Character, auf die sich die Informationen des Elements 
folgendermaBen verteilen: 


Character 1 bis 7: Text des Prafix, linksbündig. 
(Da eine bestimmte Anzahl Zeichen 
verglichen wird, kónnen nicht beleg- 
te Character mit Blanks gefüllt sein.) 


Character 8: Steuerzeichen für die Prüfung auf 
unzulässige Folgezeichen; bei dem 
Práfix -ob- mit doppelter Funkti- 
on, u.Zw. auch für die Steuerung 
der Kernänderung (phonologische Rou- 


tinen). 
Character 9: Länge des Präfix (Anzahl der Zeichen). 
Character 10: Anzahl der potentiellen Folgeprä- 


fixe in dem dem Prafix zugeordne- 
ten Teil der Prafixkombinations- 
liste (PKL). 


Character 1] und 12: Anfangsadresse des dem Präfix zu- 
geordneten Teiles der Präfixkombi- 
nationsliste. 


Auf die Suffixliste (SL), die sich ihrer logischen 
Struktur nach aus der Inklinationssuffixliste (ISL) und 
der Derivationssuffixliste (DSL) zusammensetzt, wird mit- 
tels Wortadressierung zugegriffen. Ein Element der Liste 
umfaßt ein Speicherwort (2-24 Bit) und enthält den Text 
des Suffixes rechtsbündig, nach links mit Nullen aufge- 
füllt. 
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Die einem Suffix zugeordneten Informationen sind 
unter der gleichen relativen Adresse in Hilfslisten ent- 
halten: 


SKERNC ist eine Liste, deren Elememente aus einem 
Character bestehen und das Steuerzeichen 
für die phonologischen Routinen enthalten. 


SLAENGC ist ebenfalls eine Characterliste; ihre 
Elemente enthalten die Länge der Suffixe 
(Anzahl der Zeichen). 


SVORANZ ist eine für die wortweise Adressierung 
eingerichtete Liste. Ein Element (Spei- 
cherwort) der Liste enthält in den vorde- 
ren 9 Bit die Anzahl der potentiell vor- 
ausgehenden Derivationssuffixe, die in dem 
dem Suffix zugeordneten Teil der Suffix- 
kombinationsliste (SKL) enthalten sind. In 
den restlichen 15 Bit steht die Anfangs- 
adresse dieses Teiles der Kombinationsli- 
ste. 


Damit bei der Außenkettensegmentierung zur Identi- 
fizierung der potentiellen Elemente der 1. Stufe auf den 
Teil der Listen PGL und DSL zugegriffen werden kann"! , 
deren Elemente das gleiche erste bzw. letzte Zeichen ha- 
ben, wie die zu segmentierende Kette, sind zwei Tabellen 
(PLABCD und SLABCD) vorhanden. Die Elemente dieser je 64 
Speicherwórter umfassenden Tabellen werden durch den 
Oktalwert des ersten bzw. letzten Zeichens der zu segmen- 
tierenden Kette adressiert. Unter einer Adresse mit dem 


34 Das ist bei der Segmentierung rechter AuBenketten nur re- 
levant im Falle von Teilketten vor Konnektor ''-'', 
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Oktalwert eines BCD-Zeichens, das fiir ein kyrillisches 
Zeichen gesetzt wird (siehe Tabelle im Anhang), steht in 
den vorderen 9 Bit die Anzahl der Elemente in den Listen 
PGL bzw. DSL, die mit diesem Zeichen beginnen bzw. enden. 
Die restlichen 15 Bit enthalten die Anfangsadresse des 
zutreffenden Teiles der Listen PGL bzw. SUFFLIS 2. Da die 
Elemente in den Listen PGL und DSL in normaler alphabeti- 
scher Ordnung (von links nach rechts alphabetisiert) vor- 
liegen, ist der zutreffende Teil der Liste PGL direkt 
adressierbar. Der zutreffende Teil der Liste DSL muB da- 
gegen indirekt über SUFFLIS 2 adressiert werden. Die Li- 
ste SUFFLIS 2 (ein Speicherwort pro Element) enthält da- 
zu die Adressen der Derivationssuffixe in der alphabeti- 
schen Ordnung nach dem letzten Zeichen. 


Die Kombinationslisten PKL und SKL (= ISKL + DSKL) 
enthalten, wie bereits erwahnt, die PGL- bzw. SL-Adressen 
der kombinierbaren Prafixe bzw. Suffixe. Der logischen 
Struktur nach ist jede der beiden Listen eine Aneinander- 
reihung der zu den einzelnen Elementen gehórenden Kombina- 
tionslisten. 


Die für die Durchführung des Verfahrens erforder- 
liche Strukturierung der Kernliste wurde in Kap. 5.2.5 
beschrieben. Die Ganzwortliste hat die gleiche Struktur 
wie die Kernliste. 
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9. SPEICHERPLATZBEDARF 


Das Verfahren in der Form des Assemblerprogrammes 
SPLIT 2 umfa8t einschlieBlich der Listen 17.299 Speicher- 
wörter, entsprechend 34 Quarterpages Kernspeicher. Davon 
nimmt der Instruktionsteil 5.279 Speicherworter ein. Ein 
Speicherwort der Rechenanlage CDC 3300, für die das Pro- 
gramm geschrieben wurde, umfaßt 24 Bit. 


10. EIN- UND AUSGABEFORMATE 


Das Programm erwartet Daten von demjenigen Platten- 
file, der auf der entsprechenden Steuerkarte vereinbart 
wird, u.zw. in geblockter Form. Das Programm liest jeweils 
einen Record von 32 Zeichen ein, in dem das zu segmentie- 
rende Wort linksbündig stehen und rechts mit einem Blank 
abgeschlossen sein muß. Wird für das Austesten des Ver- 
fahrens mit einzelnen Wórtern der Inputfile für Karten- 
eingabe vereinbart, so kann gemäß der Recordlänge von 32 
Zeichen nur ein Testwort pro Lochkarte eingegeben werden. 


Pro Segmentierung wird ein Record von 136 Zeichen 
auf den Outputfile geschrieben, der auf der entsprechen- 
den Steuerkarte vereinbart wird. Ein Record enthält von 
links nach rechts die Informationen: Laufende Nummer des 
Testwortes, das Testwort, den (die) rekonstruierten Wort- 
kern(e) (= Listenkern(e)) und die Segmentierung. Für eine 
heteromorphe Segmentierung des gleichen Testwortes wird 
nach einem Steuerzeichen für einfachen Zeilenvorschub ein 
weiterer Record der gleichen Lange ausgegeben, in dem je- 
doch die laufende Nummer und das Testwort nicht mehr er- 
Scheinen. Der Record für ein folgendes Testwort wird nach 
einem Steuerzeichen für zweifachen ZeilenvorschuB ausge- 
geben. 
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Alle Segmentierungsergebnisse werden so ausgerichtet, 
daB sie mit dem ersten Zeichen des Wortkernes k, in 
derselben Druckspalte erscheinen. Wortkerne und Konnek- 
toren sind von zwei Blanks umgeben; innerhalb von Prä- 
fix- und Suffixketten werden die Elemente durch ein 
Blank getrennt. Da aufgrund ihres Zeichenbestandes Wort- 
kerne und Konnektoren nicht verwechselt werden können, 
erlaubt diese Strukturierung der segmentierten Kette ei- 
ne zweifelsfreie Zuordnung der Elemente zu ihren Klas- 
sen. 
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11. LEISTUNGSFAHIGKEIT DES SEGMENTIERUNGSVERFAHRENS 


Das Verfahren wurde an einem Korpus von 10.000 Wör- 
tern der russischen chemischen Fachsprache mit folgendem 
Ergebnis ausgetestet: 


0.09 % nicht segmentierbare Wörter; 
0,7 7 falsch segmentierte Wörter; 


18,9 % heteromorph segmentierte Wörter 
insgesamt; 


80,3 % eindeutig und richtig segmentierte 
Wörter 
18,8 % Wörter mit einer richtigen und einer 


oder mehreren falschen heteromorphen 
Segmentierungen. 


In 99,5 % der Fälle heteromorpher Segmentierung 
ist also jeweils eine der Segmentierungen richtig. Bei 
der Herstellung des Derivationswörterbuches der russischen 
chemischen Fachsprache konnte durch den Einsatz eines ma- 
schinellen Entscheidungsverfahrens die von Hand auszufüh- 
rende Auswahl der richtigen Segmentierung auf 3,4 % der 
Wörter reduziert werden. Der Anteil an heteromorphen Seg- 
mentierungen ist jedoch zu hoch, als daß das Segmentie- 
rungsverfahren jetzt schon für die Zwecke der vollautoma- 
tischen Textverarbeitung eingesetzt werden könnte. Der 
Ausweg, Wörter, die heteromorphe Segmentierungsergebnisse 
liefern, in die Ganzwortliste aufzunehmen, sollte erst 
dann gewählt werden, wenn der Anteil an heteromorphen Seg- 
mentierungen unter 1 % liegt. 


Das Verfahren ist zur Zeit nur für die Segmentie- 
rung lexikalischen Wortmaterials eingerichtet. D.h., die 
Suffixlisten ISL bzw. auch DSL enthalten für Substantive 
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nur die Suffixe des Nominativ Singular und Plural, fir 
Adjektive und Partizipien nur die des Nominativ Singular 
aller drei Genera, fiir Adjektive zusätzlich die Suffixe 
des Komperativs und Superlativs im Nominativ Singular. 
Für Verba enthalten die Listen auBer den genannten Suf- 
fixen der Partizipien nur die der Infinitive. Von den 
Inklinationssuffixen obliquer Kasus wurden nur diejeni- 
gen in die Liste ISL aufgenommen, die in Adverbien auf- 
treten. 


Die Bewertung der Segmentierungsergebnisse mag der 
Leser an Hand des im Anhang enthaltenen Ausschnittes des 
mit dem Verfahren hergestellten Derivationswórterbuches 
der russischen chemischen Fachsprache selbst vornehmen. 
Hier sei dazu nur angemerkt, daß sich das Verfahren in 
dem Zwischenstadium einer Entwicklung befindet, die mit 
der Segmentierung in kleinstmógliche, oft nur formale 
Elemente begann und die zum Ziel hat, Wórter in derartig 
dimensionierte Elemente zu segmentieren, daß die maschi- 
nelle Synthese eines für Dokumentationszwecke hinreichen- 
den Wortinhaltkodes móglich ist. Dabei betrifft die wei- 
tere Entwicklungsarbeit im wesentlichen nur noch die Li- 
sten. 


Mit dem Verfahren in der vorliegenden Fassung (Ver- 
sion 2) lassen sich im Durchschnitt 55 Wórter pro Sekunde 
segmentieren. 
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12. MOGLICHKEITEN DER MODIFIZIERUNG 


Es gibt selbstverständlich eine ganze Reihe von 
Móglichkeiten, das Verfahren zu modifizieren und auszu- 
bauen. Wir wollen uns hier auf die Erwähnung von MaBnah- 
men beschränken, die der Ausschaltung heteromorpher Seg- 
mentierungsergebnisse dienen und ohne wesentliche Ande- 
rungen des Algorithmus durchführbar sind. 


Da die Präfix- und Präfixkombinations-, Suffix- 
und Suffixkombinationslisten auf einer sehr umfangreichen 
Wortschatzbasis (insgesamt etwa 115.000 Worter) ohne 
Rücksicht auf die Häufigkeit der Elemente erstellt wurden, 
bietet sich die Möglichkeit an, auf der Grundlage ma- 
schinell hergestellter und manuell korrigierter Segmen- 
tierungsergebnisse wiederum maschinell eine Häufigkeits- 
statistik anzufertigen und daraufhin seltene Elemente und 
Kombinationen wieder aus den Listen zu entfernen. Dadurch 
kónnte die Zahl heteromorpher Segmentierungen bereits er- 
heblich reduziert werden. Worter, die die in den Listen 
gestrichenen Elemente bzw. Elementkombinationen erhalten, 
waren dann natürlich mit dem Verfahren nicht mehr segmen- 
tierbar und müBten in die Ganzwortliste aufgenommen wer- 
den. 


Eine Schwáche des Segmentierungsverfahrens be- 
steht darin, daß sich Wortkerne lediglich als Restketten 
zwischen den AuBenketten ergeben und nicht distributio- 
nell definiert sind. Dieser Mangel läßt sich ohne Ver- 
grüBerung des Speicheraufwandes und ohne wesentliche An- 
derung des Algorithmus durch eine Umstrukturierung der 
Kernliste nach morphologischen Gesichtspunkten weitge- 
hend beheben: Die Wortkerne werden zunächst nach Typen 
von Suffixen, die ihnen unmittelbar folgen kónnen, und 


Friedrich Wenzel - 9783954791354 
Downloaded from PubFactory at 01/10/2019 06:09:32AM 
via free access 


00047409 


- 90 - 


erst dann nach den in Kap. 5.2.5 angegebenen Struktur- 
prinzipien sortiert. Auf die sich dadurch ergebende we- 
sentlich kürzeren Teillisten wird mittels zweifacher in- 
direkter Adressierung über die Suffixkombinationsliste 
zugegriffen. Als letztes Element der den einzelnen Suffi- 
xen zugeordneten Teile der Kombinationsliste SKL wird ei- 
ne Adresse aufgenommen, über die nicht mehr ein Element 
der Suffixliste, sondern ein Element einer Hilfsliste 
adressiert wird. Ein Element dieser Hilfsliste enthält 
die Anfangsadressen der einem Suffix zugeordneten Teil- 
listen der Kernliste. Aus diesen Adressen wird die zu- 
treffende in Abhängigkeit von der Anzahl Speicherworter, 
die die jeweilige potentielle Innenkette einnimmt, aus- 
gewählt. 


Die Einteilung der Wortkerne in Unterklassen nach 
Typen von initialen Suffixen muß, wenn man nicht die 
mehrfache Aufnahme von Kernen in verschiedene Teillisten 
in Kauf nehmen will, mehr Kern-Suffix-Kombinationen zu- 
lassen, als im Wortschatz realisiert sind. Dennoch bedeu- 
tet bereits eine grobe Klassifizierung der Wortkerne ei- 
ne wesentliche Verringerung der Anzahl an Vergleichspro- 
zeduren und somit der Wahrscheinlichkeit, daß mehrere po- 
sitive Vergleiche stattfinden und damit heteromorphe Seg- 
mentierungen generiert werden. Mit den kürzeren Listen 
erhöht sich zugleich die Segmentierungsgeschwindigkeit. 
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Tabelle der kyrillischen Zeichen und der fiir sie 


verwendeten BCD- und oktalen Kodes 


x X Uu x ob "o a © 


2 O X 3 3 zx 


OZ SZ PD w G 5ο ΣΣ RO oO < D > 


21 
22 
65 
27 
24 
25 
66 
71 
31 
41 
42 
43 
44 
45 
46 
47 


51 
62 
63 
64 
26 
67 
23 
30 
07 
10 
06 
70 
05 
03 
ll 
50 


= ax SBS c vg DB 


m ë U Tr fer E E SEX BK 4 OD 


D O U Ux A ο η 
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II. Flufdiagramm zum Segmentierungsprogramm 
SPLIT (Version 2) 


Eröffnen der Ein- und 
Ausgabefiles 


TestwortzShler auf 
Null setzen 


Testwort einlesen 


Ende des Testwörter- 
files erreicht? 


Testwortzühler um 
l erhöhen 


Druckbereich hinter dem 
Testwort mit Blanks auf- 
füllen 
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Bestimmung der Zeichen- 
anzahl des Testwortes 


Bestimmung der Speicher- 
wortzahl des Testwortes 


Speicherwortzahl als Marke in 
den Reg.-File 77 bringen 


Testwort in den Zerlegungsbereich 
bringen 


Segmentierungsroutine E 


Inhalt des A-Registers » O ? Ausdrucken der gefun- 


Segmentierungen 


nein 
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Suchen der möglichen 


Konnektor-Routine 


Konnektoren; speichern 
der Plätze unter KONNLIST 


Konnektoren gefunden? nein 
ja 


Setze KONLI 1 + O = 
Anzahl der Konnektoren + 1 


KONLI 1 (Ρ41}5 O 


Bestimmung der Wortteilgrenzen 


aus KONNLIST (KONLI 1 (P)) und 
KONNLIST (KONLI 1 (P+1)) 


nein Hat Wortteil 2 oder mehr 


Zeichen ? 


ja 


Wortteil in Zerlegungsbereich 
bringen 
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Bestimmung der 


Speicherwortzahl 
des Wortteiles 


Setze Reg. File 77 auf -1 


Ist KONLIl(P)= O, 
d.h. wird das Test 
wortende untersuch 
? 


Reg. File 77 = O 


nein 


Ist KONLI 1 (P) = 
KONLI 1 (P-1) ? 


Segmentierungsroutine 


KONLI1(P)= 
KONLI1 (P) +1 


Inhalt des 
A-Registers > O 
? 


nein 


KONLI2 (P)* Inhalt 


des A-Registers 


nein 
Die vorigen 
(P = o ?) Segmentierungen aus Ist Reg. Pile 77 = O 2 
dem Druckspeicher 
löschen 
ja 
ja 


Friedrich Wenzel - 9783954791354 
Downloaded from PubFactory at 01/10/2019 06:09:32AM 
via free access 


00047409 


- 97 - 
Druckroutine für Segmentierungen 
mehrkerniger WÜrter 


Aufbauen von KONLI3, 
KONLI4, KONLI5, KONLI6 


KONLI3(i) = KOMNLIST(KONLI1(i)) 
KONLI4(i) = KONLI4(i-1)*KONLI2 (i) 


KONLIS(1) = KONLI6(1) = © SOLUTION 


SOLUTION + 1 


EC) 


KONLI5 (O) - KONLI2 (Q) KONLIS (o) O 
? 


KONLI5 (Q)= O 


Aus 
KONLI4(Q) + KONLIS(Q) 
die jeweils zu unter- 
suchende Druckzeile 
feststellen 


KONLI5 (Q) = 
KONLIS(Q)* 1 


Aus der Druckzeile díe 

Segmentierung heraus- 
Suchen und nach 

ADDC + KONLI6 (o) bringen 


Konnektor 
aus KONLI3(Q)-ter Stelle 
des Zerlegungsbereichs 
anhängen 


KONLI6 (Q+l)= KONLI6 (Q)+ 


ο ο” Lunge der Segmentierung 
+5 


KONLIS(Q)* 1 
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SOLUTION = O 
? 


Ausgabe: 
“MIT DIESEM PROGRAMM 
NICHT ZERLEGBAR" 
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Segnentierungsroutine © 
Eingang 


Aus der ZERLEG-Liste 
Kern(e) und Segmentierung 
suchen 


Je nach der Speicherwortzah 
die Anzahl der Elemente 
in der betreffenden 
Ganzwortliste bestimmen. 


Wort nicht gefunden 


F 


| Wort gefunden 


Mullpräfix setzen, d.h. 
PRAEHIN = O 
PRAEHER = -1 


Bestimme erstes Zeichen 
des Zerlegungsbereiches 
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Lade aus Liste PLABCD 
die Anzahl der möglichen 
ersten Prüfixe 


Anzahl der 


gefundenen 
Präfixketten 
AP = O 


rit <0 
>0 


Modifikator ftir PRAEHIN 
(Mod 1) auf 1 setzen 
Se 


Vergleich: 
Präfix und Testwortanfang 


Präfix unter 


Qu 
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Modifikator ftir 


Folgepräfixe (Mod 2) 
auf 1 setzen 


Anzahl der gefundenen 
Prüfixketten 
AP = Mod 1 - 1 


Lade Prüfix aus 
PRAEHIN + Mod 2 


Existieren 
Folgeprüfixe 
? 


Springe an eine ent- 
Sprechende Stelle in der 
Prüfixkombinationsliste 


Vergle ich: 
Polgeprafix und 
Testwort 


Präfix unter 
PRAEHIN + Mod 1 
speichern 
PRAEHIS + Mod 1 
= sod 2 


Mod Les Mod 1 + 1 


Letztes Folgeprüfix 


verglichen 
? 


Mod 2 = Mod 2 + 1 
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Polgt nach dem zu zer- 
legenden Wortteil als 
Konnektor ein "-" oder 
Blank ? 


ja 


Absuchen des 
Testwortendes auf 
mögliche Inklina- 

tionssuffixe 


Nullsuffix setzen 


SUFFHIN = Nummer des 1, 
d.h. 


Suffix 
SUFFHIN+l = Nummer des 2 

Suffix 
SUFFHER = SUFFHER+1 = -1 


SUFFHIN = Nummer 
des Suffix 
SUFFHER= -λ 


SUFFHIN 23 
SUFFHER = -1 


Modl = 1 
Mod2 = O 


Lade Suffix aus 
SUPFHIN + Mod2 


neig Existieren 
vorangehende Suffixe ? 


ja 


Springe an entsprechende Stelle 
in der 


Suffixkombinationsliste 
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Nul lauf fix setzen 
d. h. 
SUPFHIN = 23 
SUFFHER = -1 


Lade eus SLABCD der 
Anzahl der möglichen 
letzten Suffixe 


Ausgabe: 
"Palaches 
Zeichen" 


»0 


Modifiketor ftir 
SUFFHIN (Modl) 
auf 1 setzen 


Anzahl = Anzahl -1 


Vergleichs Suffix 
und Wortteilende 


Suffix unter 
SUPFHIN + Modl 
speichern 


SUPFHER + Modle -1 
Modl = Mod 1 + 1 


—  |Modl = 1 
? 
ja 
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Vergleichs vorangehende Suffixe 
Testwort 


Suffix unter 
SUPPHIN + Mod 1 
speichern 


SUPFHER + Mod 1 = Mod 2 
Mod 1 = Mod 1 + 1 


Letztes vorangehendes 
Suffix verglichen 
? 


Mod 2 = Mod 2 + 1 


ja 
2 
ja 


Anzahl der gefundenen 
Suffixketten 


AS = Mod 1-1 


Spalte vom Testwort 
die Länge der 


Suffixkette aus 
SUFFHIN + Modi ab 


Friedrich Wenzel - 9783954791354 
Downloaded from PubFactory at 01/10/2019 06:09:32AM 


via free access 


00047409 


~ 105 - 


Lade das Kernänderungsmerkmal 


des letzten Suffix (SKERNC) 


Letzter 
Buchstabe 


SKERNC = 1 


Verzweigung zu den phonologischen 
Routinen 


Letzter 

Buchstabe 

des Kerns = C 
? 


Letzter 
Buchstabe 


Kern- 
änderung 
32-35 


SKERNC = 4,6,7,8 


Anderung DC stabe des Kerns 


Kern- 
Anderung 
4-5 


Letzter Buch- Letzter Buch- 


atabe des Kerns 
H, W, 7, 8 5 
? 


w, 7, 8 
? 


Kerniinderungen sind 
(4-7), O-1, 10-11 
13-14, (17-18) 
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Verzweigung zu den 
phonol. Routinen 
(Fortsetzung) 


SKERNC = 6 


Letzter 
Buchstabe 
des Kerns = 5 


Letzter Buch- 

Stabe des Kerns 

W, H, 7, 8 
? 


Letzter 
Buchstabe 
des Kerns = C 
? 


Kernänderungen sind 
0-3, 4-8 . 
10-12, 13-16 


Letzter 

Buchstabe 

des Kerns «e W 
? 


Letzte 
Buchstaben 
des Kerns= WD 


Letzte Buch- 

staben des Kerns 

FL. ML, PL, BL, VL 
? 
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Setze Mod 4 = AP 


Lade aus PRAEHIN + Mod 4 
die Länge der Präfixkette 


Bilde Länge des Kerns 

LK = Gesamtwortlänge 
- Länge der Präfixkette 
- Länge der Suffixkette 


Herauslösen 
des Kerns 


Lade das Veränderungs- 
merkmal des letzten 


Präfix (PGLC + 7) 
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a4 Verzweigung in Abhängigkeit 


von PGLC + 7 


Sind die ersten 
beiden Buchstaben 
des Kerns 
Konsonanten 
? 


reter Buchstabe 
des Kerns 


ein Konsonant 


nein 


= 1 


Kernanfangsmarke 
= O 


Hintere Kernänderung 
ausführen 


Bestimmung der 
Speicherwortzahl 


des Kerns 


Friedrich Wenzel - 9783954791354 
Downloaded from PubFactory at 01/10/2019 06:09:32AM 
via free access 


00047409 


- 409 - 


Je nach der Speicherwortzahl 
die Anzahl der Elemente in 


der betreffenden Kernliste 
best 


Reg.File 778 Gs KLL, KL2 etc. 
Reg.File 77B < O => MMI. M etc. 


Kern |nicht Kern | gefunden 


Die Zerlegung wird 
im Druckbereich in 
die nichste Zeile 

gespeichert 


LOSUNG = 
LOSUNG + 1 


Letzte hintere 
Kernänderung 
durchgefthrt 


nein ja 


Vordere Kern- 


änderung 
durch fthren 


nein Mod 3 = 
Mod 3-1 
ja 
Lade LOSUNG ins A-Register 
Ausgang 
(Segment ierungerout ine) 
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Anfang = O 

Ende * Anzahl der 
Lietenelemente 

Mitte = Ende/2 


Ganzwort/ Vergleiche 
Kern} Ganzwort/Kern mit 
MITTE - Element 

aus der Liete 


Ganzwort/Kern 
= MITTE 
Ausgang: Ausgangt 
Wort /Kern Wort/Kern 
nicht gefunden gefunden 
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IV.3 Wortkernlisten für den russischen chemischen 
Fachwortschatz 


KERNLISTT 1 
(KL1 BIS KL.) 


ABEPR 
AVT OMAT 
AGLOMER 
ADIABAT 
AKTIV 
ALKAL 
ALMAZ 
ALOMIN 
AMMON 
AMPUL 
ANALOG 
ANOMAL 
ARME TUR 
ASBEST 
AFFIN 
A3R 
BAJPAS 
BALLON 
PAR 
BARI 
RA7EN 
BEL 
REN7OIL 
RI 
BITUM 
BLIZ 
BCRAT 
BCME 
BFAS 
BRAK 
BFOS 
BUNKER 
nux 
VAGEAN 
VANAD 
VAPI 
VFKTOR 
νεος 
ΝΕΑ Χ 
VETR 
VID 
VINT 
VISKOZ 
vkus 
VNE 
VOLK 
vaLos 
VCRON 
VFAT 
ΝΤΟΡ 
VDL 
GAR 
GEKS 


ABRAZ 
AGGLOTIN 
AGREG 
AZOT 
AKTIN 
ALK 

ALS BUMIN 
AM 
AMORT 
AMFOTER 
ANGOB 
ANTIMON 
AROMAT 
ASSIMIL 
ACET 
RAV 

BAK 
PALL AST 
BARABAN 
BARSER 
BEG 
BENZ 

B EIL 
BIOT 
BLEK 
BLOK 
BIK 

839 
RRIZANT 
R290 
R2Y7G 
RUF 
B9PET 
VA KUUM 


VRED 
VULKANIZ 
GAZ 
GARMON 
GEL 


ABSOLIT 
AGENT 
ADDENO 
AKKUMUL 
AKCEPT 
ALKOGOL 
ALSOEGIO 
AMALSGAM 
AMPER 
ANALIZ 
ANGSTREM 
APPARAT 
ARRETIR 
ASFALST 
ACID 

BAD 
BAKTER 
BALT 
3ARBOT 
SASSE JN 
BED 
BEN7IL 
JESSEMER 
BINAR 
BLESK 
3L90 
BOLVAN 


VIR 
VITAMIN 
VLAK 
νΌΖ 
VOLOW 
VOLSFRAM 
VORO7 
VREM 

VYS 

GAL 


ABSC ISS 
AGIT 
ADOITIV 
AKRIL 
ALIFAT 
ALLONM 
ALSDOL 
AMMI AK 
AMPL ITUO 
ANAL IT 
ANOO 
ARIL 
ARSEN 
ATOM 
ACIL 
BAZ 
BALANS 
BAN 
BARO 
RATAPE 
3EWE V 
JENZIN 
BETON 
BIR 
SLEST 
80 
BOLT 
BRAG 
AR 
BRONZ 
BUMAG 
BUFER 
VAGON 
VALENT 
VAR 
VED 
VER 
VERTIKAL 
VETV 
VIBR 
VIN 
VIS 
VIXR 
VLEK 
VOLAW 
VOLOK 
VON 
VOSK 
VREMEN 
ce 
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DIAFRAGM 
DISKRET 
DISTILL 
00B 

DOLG 
DONOR 
DROB 


KAPILLQR 
KARB9R 
KAUST 
KVANT 
KERAM 
KINETIK 
KLAD 

KLE JM 
KLON 
KOBALST 


vnvc 
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GERMAN 
GIOR 
GLAV 
GLIN 
GLUX 
GNI 
GILUB 
GIRK 
GOROD 
GIFR 
GRADU 
GRANIT 
GPE 
GRUB 
GUB 
DAV 
DVO 
026087 
NERG 
DE SAT 
DEFEK 
DIEN 
DISPERG 
DIFFUZ 
DOBR 
02 MN 
DOROG 
OPOWW 
OUST 
E) 

EST 
WELATIN 
WERN 


IMMUN 
INDIVID 
INICI 
INTERVAL 
IJN 
ISKUS 
KAZ 
KALOR 
KANAL 
KARB 
KARHIN 
Ka UMUK 
KVARC 
KEROSIN 
KIP 
KLARAN 
KLEJSTER 
KL 9H 

KOV 


va 


GERMET 
GIORAVLIK 


-GLAD 


GLOBUL 
GLQNC 
GNO 
GON 
GORL 
GOR7 
GRAV 
GRADUS 
GRANUL 
GREM 
GRUZ 
GUMM 
DAL 

DE 
DEKANT 
DEREV 
DETAL 
DEFEKT 
DINAM 
DISPERS 
DIFFUND 
002 
DOMEN 
DRAN 
DU 

OUX 

E DIN 
WA 
WELEZ 
WEST 
110 
WOM 
ZEJGER 
ZNA 
ZON 
ZRE 
IZVEST 
INVERS 
INDIG 
INSTRUMENT 
INTERFERENC 
IRIZ 
300 
KAK 
KALSC 
KAOLIN 
KARBOKSIL 
KAT 
KAM 
KVAS 
KET 
KIS 
KLASS 
KLET 


Friedrich W 


KOAGUL. from PubFactory at 
KONZ 


κωι a 


GIB 
GIDROKS 
GLAZ 
GLOT 

GN 

GOD 
GONMAR 
GORMON 
GOTAV 
GRAVIT 
GRAMM 
GRAF 
GREX 
GRUPP 
GUST 
DAR 
DEGOT 
DEKS TR 
DERIV 
DETEKT 
DEFL AGR 
DISK 
DISSIMIL 
OL IN 


INGIBIT 
INDIK 
INTEGR 
INFEKT 
ISK 
KAD 
KAL 
KAMEN 
KAP 
KARBON 
KATOD 
KVADR 
KVASC 
KID 
KLAV 
KLE 


KLIN 
KOAL ERNA TAn 
KOW 
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KOLEN KILLEKT KOLLOIO KOLO7 
KOLOKOL K9LON KOLONN KOLP AK 
KOLHEOAN KILSC KOMBIN KOMPLEKS 
KOMPON KOMPRESS KOMPRIM KON 
KONVE JER KONVEKT KONVERS KONVERT 
KONDENS KONDIC KONSERV KONS ISTENT 
KCNSTANT KONTAKT KONTROL KONUS 
KONFIGUR KINCENTR KON69G KOP 

KOR KOS KOROB KORPUS 
KORPUSKUL KIRREKT KORROD KORROZ 
KOTEL KISFFICIENT KRAN KRAS 
KRAP KRAT KRAXMAL KREK 
KREKING KREMEN KREMN KREP 
KREST KOIV KRISTALL KROV 
KROP KRUG KRUP KRUT 

KRY KSIL KUB KULON 
KUMUL KUPEL KUP OP KUR 
LABOR LAV LAG LAZ 

LAK LAKMUS LAKT LAMP 
LANTAN LAP LATENT LATUN 
LEG LE GIF LED LEZ 

LENT LET LI 112 

LIKV LIL LIMON LIN 

LIP LIST LIT LOV 

LOG LIM LOP AST LOPAT 
LUD LUH Lan L9L 
LOMITNESC L52 MAGNET MAGNI 
MAGNIT MAZ MAZUT MAK 
MAKSIM MAL MALIN MARGANEC 
MARGANC MARK MASL MASS 
MASTIK MAT MATERI MACER 
MAX MA7IN MED MEDL 

MEW MEL MEMBRAN MEN 
MENZUR MENISK MER MERKUR 
MERA μες MEST MET 
METALL HN TOD METR MEX 
MEXAN ME7 MIGP MIKST 
MINERAL MINIM MK MNOG 

MOG MIDEL MODUL MOK 

MOKF MOL MOLEKUL MOLIBDEN 
μοι OK MI MENT “OP MORAW 
MOROZ MORF MOST MOT 
MOT^R M08 MRAMOR MUK 

MUR AV MUR MUT MUFEL 

MY MYK MY750K MY7L 

MC NO NAR x N ATR 
NATUR NA7ATYR NAFT NEJTR 

NE JTRIN N*PTUN NES NEFT 

NIZ NIK NIKEL NIT 

NITR NOV NOW NOMENKLAT 
NCMER NORM NOS NUKLEOL 
NUKLEON NUTR NUTH NQ 

OBRAZ 088 OGN ODIN 
OzEP OZON OKN OKSID 
OKT OLEFIN OLOV OM 

OF AL OFER OPTIK ORAN M 
ORBIT ORGAN ORDIN ORIENT 
ORUD OSM DSMOS 0SMOT 
OSNOV O4AG PA Fredrich Pe - 9783954791354 
PAK PAL © Aotufddded from PubFactory 5 ARI0/2019 06:09:32AM 


via free access 


00047409 


PARAFIN 
PASTER 
PEMZ 
PERV 
PERMUT 
PILOL 
PLAV 
PLAST 
PLOD 
PNE VM 
POL 
POLITUR 
POLOTN 
POR 
FORT 
POHV 
PRESS 
PROB 
FROF 
PPOTEKT 
PROCESS 
PRQM 
PULSVER 
PURPUR 
CYL 
RASAT 
RADIKAL 


REOUKT 
REZIN 

RELAKS 
RETORT 


SKOVOROD 
SKOR 
SLAD 
SLOV 
SMAL 
SNEG 

SOL 

SORB 

SOx 


PAS 
PATIN 
PEN 
PERGAMENT 
PES 
PIPET 
PLAZM 
PLATIN 
PLOSK 
POD 
POLASK 
POLN 
POL9S 
PORAW 
POR7 
PRAV 
PRECIZ 
PRODUK 
P*0PORC 


PROTIV 


PRUG 
PUDLING 
PULSP 
PUSK 
PYT 
RABOT 
RAZ 
RAFIN 
REAG 
RZGISTR 
REOUC 
RE ZULST 
R= LA 
RECEPT 
PIFL 
ROZ 

ROT 

RUD 

RUX 
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PASSIV 
PAX 
PEPEL 
PERIOO 
PIGMENT 
PIRIT 
PLAK 
PLEN 
PLOT 
POZITIV 
POLZ 
POLOS 
POMP 
POROW 
POT 
PREPAR 
PRIZM 
PROEKT 
PROST 
PROTON 
PRYSK 
PUZYR 
PULSS 
PUST 
PYX 
RAV 
RAK 
RACEM 
REAKT 
REGUL 
REZ 
REKT 
RENTGEN 
RE7 
RIC 
ROMB 
eTUT 
RUK 
RYV 
SAD 
SATIN 
SVEN 
SE 
SEKC 
SENSIBIL 
SEREBR 
SIZ 
SIMVOL 
SINTET 
SKAK 
SKELET 
SKOL57 
SLA 
SLEZ 
SLUG 
SNABD 
500 
SOL5V 
505 


POROX 
POTENCIAL 
PRESN 
PRINCIP 
PROGRESS 
PROTE 
PROH 

PRQG 


RACIONAL 
REBR 

RED 
REZERV 
REKUPER 
RESURS 


SOR 
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SPIPT 
STAV 
STANDART 
STATISTIK 
STEPEN 
STERIL 
STOLB 
STRAN 
STRUKT 
SUBLIM 
sud 
SURSH 
SXEM 

SYX 

TALK 

TAP 

(Jak 
TEKT 
TEMPER 
TER 

TERP 

TIP 

TITP 
TOKS 

TON 

TORF 
TRANSPORT 
TRET 
TROF 


FIOLET 
FLUORESC 
FOB 

FORM 
FOSFOR 


HERP 
HETVERT 
HLEN 
EI 
7AXT 
7ELK 
7IR 


SREO 
STADI 
STANC 
STEAR 
STEREG 
STIMUL 
STOPOR 
STRO 
STUD 
SUBSTANT 


FORMUL 
FOSFORESC 
FRIKC 
FUTER 

XE 2 

Χι OF 

X932 

XROM 

CVET 
CENTRIFUG 
CILINDR 
HAN 

HERED 
HERSTV 
HE7U 
HUVSTV 
7ABLON 
7A7K 
TEROX 
TIFER 
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STA 
STAKAN 
STAR 
STEKL 
STERNEN 
STO 
STOROW 
STRONCI 
STUP 
SUBSTRAT 
SULSFUR 
SUX 


FARMACE VT 
FERMENT 
FIL 
FLOKUL 
FLOORESC 
FONTAN 
FOR7TOS 
FOTON 
FRITT 
XARAKTER 
XIH 

XLOR 
XOLOO 
XRUP 

CEO 

CEP 

CINK 

HAS 
HEREN 
HET 

HISL 
HUGUN 
TAMOT 

7 VEL 


PER aces from Pu 


LJ 


STABIL 
STAL 


SUBSTRAKT 
SURROGAT 
SFER 

SYT 
TAKSIS 
TANN 
TVERD 
TEK 

TEM 

TEP 
TERNAR 
TIGEL 
TITAN 
TOK 
TOLST 
TORMOZ 
TRANSLQC 
TRESK 
TROP 
TRQS 
TUMAN 
TUX 

UZEL 
UTIL 
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7KAF 

7LEM 

70 

7PRIC 
7TUCER 
SELAH 

δΙΤ 

SWEKT 
3KRAN 
3KSPERINENT 
3KSPONENT 
3KSTRAKT 
3LEKTR 
3LIMIN 
3MISS 
3MUL5S 
3NOL 

3ROI 


KONTRAST 
KRISTAL 
LITP 
MATRIC 
MOLIBO 
NARUN 
OKSON 
FOZIC 
PRODUKT 
SAM 

SEPT 
SLIZ 
STANOV 
SCINTILL 
TISN 
UNITAR 
CENTROFUG 
3VAPOR 


τι Ακ 
TLIR ι 
TPAR 
7TAB 
7TYB 
BELOK 
J3VAKU 
3KLIPS 
3KZALS5T 
I3KSPOZIC 
3KSPON 


3KSTRAPOL 


3LEKTROO 
3LLIPS 
3NIT 


MERZ 
MONITOR 
NIM: 
O?ALESC 
POROX 


REZERVUAR 


SVIL 
SILIC 
SOLAN 
STACION 
TERAP 
TREGER 
FARMAC 
CIRKON 
3KSUD 
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TLAM 
TLIF 
ZPATEL 
TTATIV 
TTYK 
BEP 

36Αι 
3KONOM 
iKSGAUST 
3KSPLOAT 
3KSSU0 
3LAST 
3LEKTRON 
SMAL 
3MITT 
3NZIM 
INTRO 
3STER 
3FFEKT 
an 

QRUS 
BA7N 
GIAL 
GRQZ 
ORAZN 
INWEKTOR 
KOLOT 
KOPOT 
KUS 
LUM? 
MIN 
MUFEL 
NOG 
PENT 
PROBK 


REZISTENT 


SVINEC 
SKORBUT 
SPECIFIK 
STE KOL 
TERAPEVT 
TREPEL 
FERR 
CISTERN 
3MPIR 


TLANG 
TLIXT 
TPEJZ 
7TRIX 
BAVEL 

BET 

30R 
SKONONAJZER 
SKSI ΚΑΤ 
3KSPLUAT 
3KSTRAG 
3LEVAT 
J3LEMENT 
3NANAT 
3MUL 5G 
SNKAUSTIK 
3PRUVET 
3T 
3FFLORESC 
QDER 

QHE 
VITROFIR 
GIOL IN 
OABR 

ΟΥΧ 
KARBAN 


SUBTRAKT 
TESN 
TUBULUS 
XIMIKAL 
TPIGEL 
QR 
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KERNLISTE 2 
(NKL1 BIS NKL4) 


ARD 


AP ARGENT ARE 
ARSEN ASB ASBEST ASFALST 
ATM ATOM AUKS AUT 
ACET ACIO A3R AVT 

AGR AGREG AZE AZOT 
AKV AKRIL AKSON ALL 
ALLFL ALSFA ALIM ALOMIN 
AM AMMON BAZ BAKTER 
BAR BARD BAT BEL 
BENZ BENZIN BETA BETON 
BI BLAG BLED BOL 

BOR B3YZG BUR BYSTR 
VANAD VERX VIBR VID 

VIN VINT VITAMIN VIXR 
VLAG VOD VOLSFRAM VOL9M 
VOSK VRAT vYs vaz 

GAL GALSVAN GAMMA GEL 

GEM GERMAN GEIER GIGR 
GIOR GIP GLAD GLIN 
GLANC GOL GOM GOR 
GORMON GIRN GRAN GRANUL 
GRE GREM GRUB GRUZ 
GRQZ GUST DAR ovo 

Όνυ DEGT OEKANT OEL 
DELSTA DEREV DESM OEFEK 
DEFEKT DIEN DILAT DINAN 
DLIN DOBR OREVES DUG 

ουχ DYM EM EST 

WAR WELATIN WELEZ WELT 
WID WIR ZAKON ZVUK 
ZELEN ZERN ZOL ZOLOT 
IATR IZVEST I2 IM 
IMMUN INOIG ION ISKR 
J00 KAMEN KAMN KAPL 
KARB KAUHUK KET KIL 

KIP KIS KLE KLIN 
KOKS KOLB KOLLOIO KONDUKT 
KONSIST KONUS KOR KOROT 
KORROZ KRAN KRAS KRAXMAL 
KREKING KREMN KRI KRIPT 
KRISTALL KRUG KRUP KRY 
KSANT KSANTOGEN KSEN KSER 
KSIL KUB LAK LAKT 
LEV LEG LEO LE JK 
LES LI LIMON LIP 

LUH L50 L9M MAGNET 
MAGNIT MAZ MAKR MAL 

MAN MARGANC MASL MASS 
MED M: WO MEZ MEL 

MER MERKUR MES MEST 
META METALL MIKR MINERAL 
MNOG MOKR MOLEKUL Friedrich MOL BODEN 791354 
MOL OK HON MOROiBaded from PubFactory 44QRH2019 06:09:32AM 


via free access 


00047409 


- 468 - 


MRAMOR MUK MURAV MUT 

MY MY?5QK NEJTR NEFEL 
NEFT NIZ NIKEL NITR 
NOS NUKLE NUTH OGN 

ODN OZON OKS OLOV 
ORGAN PAR PARAFIN PAST 
PEMZ PEN PERMANGANAT PES 
PETR PIKN PIR PLAST 
PLATIN PLEN PLOSK PLOT 
PLOX PNEVM POLN POR 
POROX POSL POT POTENCIAL 
POMV PRAV PRESN PRESS 
PROB PROT PROTE PROT IV 
PROH PRQM PSEVD PSIXR 
PULSS PUST PSEZ PYL 

RAV RADI RAZ RAN 
REAKT REZIN RENTGEN ROV 

ROD ROMB RTUT RUD 

RYV SAM SAL SAM 
SAXAR ,SVEW SVET SVINC 
SEGNET SELEN SENSIT SER 
SEREBR SIL SILIK SIN 
SINTEZ SIT SKALEN SKLER 
SKOR SL AB SLEZ SL9D 
SMOL 891 SOLOO SOLSV 
SORB SPEKTR SPIRT SREO 
STAL STEAR STEKL STEN 
STERE STEXI STOL STRUKT 
SUL ΡΕ SURSM SUX TAL5K 
TANN TAUT T VERO TVOR 
TELLUR TEM TEMPER TEP 
TERM TEST TEXN TIKS 

TI TIP TOKS TOLST 
TON TOP TORF TRANS 
TPAPEC TRUB TRUD TUG 

TUK TUMAN TURB UGL 
UGOL UZ UKSUS URAN 
FARNAK FARFOR FEN FERMENT 
FERR FIZIK FIT FLOT 
FLUOR FLOOR FLOS FORM 
FOSFOR FOT FRAKT FTOR 
XAL5K XEM XIM XLAO 
XLOP XL OR x00 XOLOD 
XROM CVET CELL CENTR 
CEP CIAN CIKL CINK 
CIS CIT CITR HAST 
MUGUN HU? 7 AR TELK 
TERST 7IR TKAF 7LAK 
TLAM 7PRIC BAVEL BELOH 
3BULLI 3V APOR 3KZ 3KSP ON 
3KSPRESS 3LAST ALERTE 3LEK TRON 
3LEMENT 3LLIPT 3NANTI 3ND 
3NERG 3N21M 30ZIN 3POKSI 
3TER 3F IR Q8LOK QV 

Qo QDR QR QTR 
QBIK AVTOKLAV AKSELER AKCELER 
AMPER BARABAN ΒΑΥ͂Ν BLEK 
BROM BUNKER BUTIR „„ Sort. 
1 s KUUM CEN aded from PubFactory at d 008 09 0 


via free access 
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GLAV 
KAKOOIL 
KLAD 
KOMPLEKS 
MOH 

OSM 
POTENC 
SALICIL 
TR 
CIRKON 


GRAMM 
KAP 
KOLOO 
LIN 
NOV 
PIV 
PROTON 
SFER 
TRI 
3BULI 
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GROXOT 
KARBAN 


3LEKTROD 


WOM 
KATOO 
KOLSC 
MARGANEC 
ORT 

PLOO 
PQTN 
TITAN 
FOSF 
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V. Ausschnitt aus einem mit dem Segmentierungsverfahren 
hergestellten Derivationswürterbuch der russischen 
chemischen Fachsprache 


BRAG BRAG A 
S BRAW IVA EM OST 5 
S BRAW IVA EM YJ 
ZA BRAW IVA NI E 
VZ BRAW IVA NIE 
00 BRAW IVA NIE 
5 BRAW IVA NI E 
VY BRAW IVA NI E 
S BRAW IVA T5 
VY BRAW IVA T5 
S BRAM IVA 98 IJ 
BRAW KA 
PERE BRAW IVA NI E 
PERE BRAW IVA T5 


BRAK BRAK 
BRAK OV A NN YJ 
ZA BRAK OV A NN YJ 


BRAS SIEHE BROS 
BRIZANT BRIZANT N OST 5 
BRIZANT N YJ 
BRIKET BRIKET 
BRIKET IR OV A NI E 
BRIKET IR OV à T5 
BRIKET IR OV O4 N YJ 
BRIKET N YJ 
BROD OT BROO 
vY BROD I V7 IJ 
BROD I L5 N YJ 
BROD 1 Us NQ 
VY BROOD 1 T5 
BROD I T5 
S 8800 I T5 
BROO ds IJ 
PERE BROO I V7 IJ 
. PERE BROOD I T5 
BROW ENI E 
S BROW ENN YJ 
NE S BROW ENN YJ 
BROM BROM 


BROM AT 

BRON AT O ΜΕ IQ 
BROM ZA ME8 ENN YJ 
BROM ID 
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S 131 I 


< > 
< < < X Z 


3 IN3 
ΓΑ NN3 
fA ΝΝ3 

3 ΙΝ3 

ΓΑ N3 Vv 


S 150 WI 


S 131 


fl 86 VAI 
S1 VAI 

3 IN VAI 
S1 Vv 

Aca n O 
31 VAI 

3 IN VAI 
I 

S1 V 

Si V 

V5» T V 
ci NN 
Sl NN 


3 IN VAA 


ΜΨΝΠΘ 
ΜΨΗΠΘ8 
SEI 
SEI 
SEI 


onnea 
OA 
OMNg 
QMng 
ΟΜΠ8 

ong 

ane 


22A88 
92488 
92 λ88 
9248 
92489 
92488 
92488 
92488 
02489 
92488 
92489 
2488 
2488 


50 88 
5098 
Svag 


AA 
AA 


SEW 


ang 


92 λ88 


5088 
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CA AO 


S] V ^O 81 
3 IN V AO UI 


30 N OOA 
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OROT 

OROT N YJ 

OROT 

OROT 

VRAT 

VRAT I T5 

VRA8 A TELS ND - IZ O 
VRA8 A TELS N YJ 

VRA8 A TS 

VRA8 ATS SQ 

VRA8 A 98 IJ 

VRA8 A 98 IJ SQ 

VRAS ENIE 

VRA8 A TS 

VRA8 ENI E 

VRA8 A 98 IJ 
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VORO7 


VOSK 


VRAT 


VRED 


VREM 


VREMEN 


VTOR 


VULKANIZ 


NE O8 
NE 08 


KARB 0 


BEZ 
BEZ 
O BEZ 
0 BEZ 
O BEZ 
PO 


PO 


DE 
DE 


DE 


NE 


RAT IM 
RAT IM 


νοδ AN 
vO8 AN 
VO8 ΑΝ 
vos EN 
vos ΙΝ 


STEME 


VRED I 
VRED I 
VRED N 
VREO N 
VRED N 
VRED N 
VRED I 


32 


0ST 5 
YJ 


TEL 5 
TEL5 SK IJ 
057 5 


VREN IVA NI É 


VREM IV 
VREMO E 


VREM Q 
VREMEN 
VREMEN 


STEME 


VTOR IM 
VTOR N 


VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 
VULKANIZ 


NIE 


N OJ 
N YJ 


VREM 


N YJ 
YJ 


AT O3 

AT O3 

AC I INN YJ 
AC I Q 

AC I Q 

IR OV A T5 

IR U 98 IJ 


OV A NN YJ 
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VULKANIZ OV A T5 
POO VULKANIZ AC 1 0 
POD VULKANIZ OV ANN YJ 
PERE VULKANIZ AC IQ 
POLU VULKANIZ AC IQ 
NE OO VULKANI2 AC IQ 
vYS VYS OK O AKTIV N YJ 
VYS OK O VOLST N YJ 
VYS OK O VQZ K IJ 
VYS OK O GRAOUS N YJ 
VYS OK ο OIS?ERS N YJ 
VYS OK O ZOL5 N YJ 
VYS OK O KALOR I J N YJ 
VYS OK O KAH ESTV ENN YJ 
VYS OK O KI? Q8 IJ 
VYS OK O KONSENTR IR OV A NN YJ 
VYS OK O KREMN IST YJ 
VYS OK O LEGIR OV A NN YJ 
VYS OK O MASNIT N YJ 
VYS OK O MASSANC EV YJ 
VYS OK O MOLEKUL QR N YJ 
VYS OK O NE PRE OELS N YJ 
VYS OK ο NIKEL EV YJ 
VYS OK ο OGN E U POR N OST 5 
VYS OK O OGN E U POR N YJ 
VYS OK O PLAV K IJ 
VYS OK O POLI MER 
VYS OK O POLI MER N YJ 
VYS OK ο PRO IZ VOD I TELS N Y 
VYS OK O PRIH N YJ 
VYS OK O SMOL IST YJ 
VYS OK O SORT N YJ 
VYS OK O SULSF IR OV A NN YJ 
VYS OK O TEMPER AT URN YJ 
VYS OK O TE? L ο PRO νου N 
VYS OK O TOKS IHN YJ 
VYS OK O TOH N YJ 
VYS OK O UG. E ROD IST YJ 
VYS OK O FERMENT AT IV N YJ 
VYS OK O XR)M IST YU 
VYS OK O HAST OT N YJ 
VYS OK ο HUVSTV I TELS N YJ 
VYS OK O 3LAST IH ESK IJ 
VYS OK O 3LAST IHN OST 5 
VYS OK IJ 
VYS OT A 
vVYS 7 IJ 
PO VY? ENIE 
VY? KA 
νΩΖ van Us EE 
VON vs IJ 


BYSTR O van us IJ 
S VQZ A NN YJ 
S vaz A T5 
VQZ K O ` TEKrriccttt wA - 9783954791354 
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NE 

ovo E 

DON O 

VYS OK 
PROH N O 


o O ñ @ oO Ota La ώ 


ναι 


GAZ O BEZ 


34 


vaz K IJ 
VQZ K OST 5 
ναζ N OST 5 
VQZ υ 98 EE 
vaz U 98 IJ 
VQZ YVA T5 
vaz 5 

VQZ A NN YJ 
ναζ N OST 5 
ναζ ΑΝ YJ 
ναζ κ IJ 
VQZ A NN YJ 
ναι EN YJ 
ναι ENI E 
var I TS 
ναι I TS 
ναι IVA NIE 
ναι KA 


GAW IVA NIE 
GAW IVA TS 


GAZ 

GAZ - VOS STANOV I TEL 5 
GAZ - O KIS LI TEL 5 
GAZ AT OR 

GAZ AC I Q 

GAZ AC I Q 


GAZ IFIC IR OV A TS 
GAZ IFIC IR U ZN YJ 


NA POLN ENN YJ 
NA SY8 ENN OST 5 


A SY¥8 ENN YJ 
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GAZ LIFT 
GAZ O ANALIZ AT OR 
GAZ O BALLON 
GAZ O BETON 
GAZ O VOZ DUX O OU VKA 
GAZ O VOZ DY? N YJ 
GAZ O VY OEL ENIE 
GAZ O GENER AT OR 
GAZ O GENER AT OR N YJ 
GAZ O DU VKA 
GAZ O KAL ILS N YJ 
GAZ O KAMER A 
GAZ O MER 
GAZ O METR 
GAZ O MOTOR 

0 

0 

0 
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VI. Ausschnitt aus einer Sortierung des segmentierten 
russischen chemischen Fachwortschatzes nach Suffix- 


ketten (1.Sortierschlüssel) 


HA7 HA7 A 
7AXT 7AXT A 
ΤΑΖΚ 7A7K A 
71XT TIXT A 
7KAL 7KAL A 
7LIR 7LIR A 
7PE JZ 7PEJZ A , 
8EP BEP A 
811 ZA 8IT A 
$NTAL 5? IZ O 3NTALSP A 
SNTROP IZ  3NTROP A 
VANN VANN A - PRESS 
SMOL SMOL A = SYR EC 
KANOT OT RABOT A V? IJ 
BOGAT O 80648 A EM OST 5 
BUX NA BUX A EM OST 5 
GLOT PO GLO8 A EM OST 5 
ν3Ρ νοζ GOR A EM OST 5 
SAM O VOZ GOR A EM OST 5 
S GOR A EM OST 5 
GUST S GUS A EM OST 5 
WIM S WIM A EM OST 5 
NE S WIM A EM OST 5 
LEG RAZ LAG A EM OST 5 
LIP PRI LIP A EM OST 5 
MEST ZA MES A EM OST 5 
MIN S MIN A EM OST 5 
NE S MIN A EM OST 5 
MOK NA MOK A EM OST 5 


NE PRO MOK A EM OST 5 
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voo 
GAZ 
νοζ ουχ 
νου ο 
GAZ ο 
MASL O 
WIR O 
SVET ο 
vo2 ουχ 0 
PEK 
SAD 
TEK 
TIR 
BUD 
GOP 
ED 
WIM 
LEG 
MEST 
MOK 
NIK 
νου 
GAZ 
PYL € 
νου O 
GAZ O 
ZVUK O 
MASL O 
PAR O 
WIR O 
SVET O 
PUSK 
ROS 
SAD 


voz 


S 
NE S 


NE RAZ6 


40 


NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
NIC A EM OST 5 
PEK A EM OST 5 
SAND A EM OST 5 
SAWD A EM OST 5 
TEK A EM OST 5 
TIR A EM OST 5 
BUND A EM YJ 
GOR A EM YJ 
GOR A EM YJ . 
ED A EM YJ 
WIM A EM YJ 
WIM A EM YJ 
LAG A EM YJ 
LAG A EM YJ 
MES A EM YJ 
MOK A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM YJ 
NIC A EM Yu 
NIC A EM YJ 
PUSK A EM YJ 
RO7 A EM YJ 
ROT A EM YJ 
SAWD A EM YJ 
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SUX 


TVERD 


BOLT 
BRYZG 
WIM 
KAH 


MES 


BEG 
KAT 
WIG 
718 


KAT 


KOV 
MOK 
BIP 


BUX 


GAS 
GNET 


GOR 


GORK 


DERW 


- 494 - 
NE O 

0 

0 

NË O 

SOK O VY 
MUK O 

GLIN ο 
BETON ο 

RAS TVOR O 
SKOR O 

PO 

08 

OT 


XOLOD N ο 


RAZ 


RAZ 


SAM O VOZ 


POD 


41 


SAWO A EM YJ 
SU7 A EM YJ 


TVERWD A EM YJ 
TVERWD A EM YJ 


BOLT ALKA 
BRYZG ALKA 


WIM ALKA 


KAH ALKA 
ME7 ALKA 
μετ ALKA 
μετ ALKA 
μετ ALKA 
ME7 ALKA 
ME7 ALK A 
DEN AL OST 5 


MAK AN YJ 
BIR A NI E 


BUX A NIE 
BUX A NIE 


GAS A NI E 


GNET ANIE 


GOR 
GOR 
GOR 


GOR ANIE 
GOR A NI E 
GOR A NI E 
GOR A NIE 
GOR A NI E 
A E 
A E 
A E 


GORK A NIE 
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DUX 
EO 


NIG 


WIM 


ISK 
KAZ 
KAP 
KAH 
KIP 


KIS 


KOLEB 


LEG 


LIP 


MOK 
MOROZ 
MIN 


MY K 


NIK 
IM 


OSNOV 


SOL 

VLAG 

oo ο ROD 
TEP L 


ooon 


PSEVO 


PO 


RAZ 


RAZ 


PRO 


0 


42 


DERW A NI E 
DERW A NI E 
DERW A NI E 
OERW A NIE 
DERW A NIE 


ED A NIE 

WIG A NI E 
WIG A NI E 
WIG A NIE 
WIG A NIE 
WIG A NI E 
WIG A NI E 
WIG A NI E 
WIM A NI E 
WIM ANIE 
ISK ANIE 
KAZ A NI E 
KAP A NI E 


OSNOV A NIE 
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PEK 


PIT 


POLOSK 


PUSK 


PYT 


RAST 


REZ 


RYV 


RQO 
SED 
STUP 
SYP 


SUX 


TEK 


TIR 


TUX 


UX 


JLEKTR O VZ 


OSNOV A NI 
OSNOV A NI 
PEK A NI E 
PEK A NI E 
PIT A NI E 
POLOSK A NI 
POLOSK A NI 
PUSK A NI E 
PUSK ANI K 
PUSK ANI E 
PUSK A NI E 
PYT ANIE 
RAST A NI E 
RAST ANIE 
RAST A NIE 
REZ A NI E 
REZ A NI E 
REZ A NIE 
RYV A NI E 
RYV ANIE 
RYV ANIE 
RON A NI E 
SED A NIE 
STUP A NIE 
SYP A NIE 
SYX NI E 
SYX A NIE 
TEK ANIE 
TEK ANIE 
TEK A NI E 
TEK A NI E 
TEK ANI E 
TEK ANIE 
TIR A NIE 
TIR A NI E 
TIR ANIE 
TIR A NIE 
TIR A NI E 
TIR A NI E 
TUX A NI E 


43 
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NE 08 
oT 


BLAG O 

so 

PYL € 50 
PROB O OT 


RAZ 
νΥ 


3LEKTR OD ο 
ISKR 0 U 


SOK O VY 


PO 


XOLOO A NIE 
CVET A NIE 
HERP A NIE 


HET A NI E 
HET A NI E 


REZ A NN AQ 


VQZ A WN YJ 
VQZ ANN YJ 
VQZ A NN YJ 


GN A NN YJ 
GN A NN YJ 


DEL A NN YJ 
DEL A NN YJ 


DERW ANN YJ 
DERW A NN YJ 
DERW A NN YJ 
KAT A NN YJ 
ME7 A NN YJ 


RABOT A NN YJ 
RABOT A NN YJ 


UX A NN YJ 
BIR A TEL 5 
BIR A TEL 5 
BIR A TEL 5 


GRUM A TEL 5 
GRUN A TEL 5 


OVIG A TEL 5 


OERW A TEL 5 
DERM A TEL 5 
DERM A TEL 5 


WIM A TEL 5 


KAZ A TEL 5 
KAZ A TEL 5 
KAZ A TEL 5 
KAZ A TEL 5 


KL9H A TEL 5 
KL9H A TEL 5 
KL9H A TEL 5 


&& 
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RAZ 

7LAK O 

IZ 

BUNKER - 

KAPL E 

EST ESTV O IS 
oT 

MASL o OT 

PRE 

vi 

5 

ES 


3LEKTR O OT 


IZ 
PYL E So 


PO 
Nà 
ZA 
08 


IZVEST K O 08 
UGL E VY 


I2 


VS PO 


PRO 


IS 
LUH € IS 


IS 


A TEL 5 
A TEL 5 
A TEL 


5 
A TEL 5 
A TEL 5 
A TEL 5 
A TEL 5 


A TEL 5 
A TEL 5 


A TEL 5 
A TEL 5 


A TEL 5 

A TELS N 2 
A TEL5 N OST 
A TELS N OST 
A TELS N IST 


TEL5 N YJ 
TEL5 N YJ 


>p > 


A TELS N YJ 


A TELS N YJ 


A TELS N YJ 
A TELS N YJ 
A TELS N YJ 
A TELS N YJ 
A TELS N ¥J 


A TELS N YJ 
A TELS N YJ 
A TELS N YJ 
A TELS N YJ 
A TELS N YJ 
A TELS N YJ 


A TELS N YJ 
A TELS N YJ 


I2 


45 


0 


MER N Y. 
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09 


RAZ 


RIC 


TROX 


BIR 


BL 90 
BOGAT 


BOLT 


BIR 


BRYZG 


BUX 


VEPG 


VLFK 


VOROT 


vaz 
GIB 
GLOT 
GLUX 


GON 


GNET 


GOR 


~ 196 - 


JLEKTR O OT 


PERE 


RAZO 
070 


POD 


46 


RAW A TELS N YJ 


RIC A TELS N VJ 
RIC A TELS N VJ 


TRGS A TELS N YJ 
BIR A TS 
BIR A TS 
BIR A TS 
BIR A TS 
BL90 A TS 
BOGAB A TS 
BOLT A TS 
BOLT A T5 
BOLT A TS 
BR A T5 

BR A TS 

BR A TS 

DR ATS 
BRYZG ATS 
BRYZG A TS 
BRYZG ATS 
BUX A T5 
BUX A T5 
VERG A TS 
VLEK A TS 
VLEK A TS 
VRAB ATS 
VRAB A TS 
vaz A TS 
GIB A T5 
GLO8 A TS 
GLU7 ATS 
GN A TS 

GN A TS 

GN A T5 

GN A T5 
GNET A TS 
GOR A T5 
GOR A T5 
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